KR101967810B1

KR101967810B1 - 데이터 프로세서 및 사용자 제어 데이터의 오디오 디코더들과 렌더러들로의 전송

Info

Publication number: KR101967810B1
Application number: KR1020167036597A
Authority: KR
Inventors: 스테판 슈라이너; 시모네 퓌그; 하랄드 푹스; 얀 프로그스티어스; 스테판 될라
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2014-05-28
Filing date: 2015-03-27
Publication date: 2019-04-11
Also published as: BR112016027639B1; JP6371416B2; AR125774A2; PL3149955T3; CN106537929B; AR125772A2; TWI587283B; EP4236331A2; TW201610983A; KR20170023870A; EP3149955B1; CN110177297B; ES2956362T3; ZA201608160B; EP3800898B1; CA2950197C; MY174199A; AU2015266343A8; MX2016015388A; PT3522554T

Abstract

인코딩된 오디오 데이터 및 인코딩된 오디오 데이터와 관련된 메타데이터를 수신하기 위한 리시버 인터페이스: 오디오 데이터 조작 가능성을 결정하도록 메타데이터를 파싱하기 위한 메타데이터 파서; 상호작용 입력을 수신하고 상호작용 입력으로부터, 오디오 데이터 조작 가능성과 관련된 상호작용 제어 데이터를 발생시키기 위한 상호작용 인터페이스; 및 상호작용 제어 데이터와 인코딩된 오디오 데이터 및 메타데이터를 획득하고 인코딩된 오디오 데이터, 메타데이터의 적어도 일부분 및 상호작용 제어 데이터를 포함하는 출력 데이터 스트림을 발생시키기 위한 데이터 스트림 발생기;를 포함하는, 오디오 데이터 프로세서가 개시된다.

Description

데이터 프로세서 및 사용자 제어 데이터의 오디오 디코더들과 렌더러들로의 전송{DATA PROCESSOR AND TRANSPORT OF USER CONTROL DATA TO AUDIO DECODERS AND RENDERERS}

본 발명은 청구항 1에 따른, 오디오 데이터 프로세서, 청구항 14에 따른 오디오 데이터의 처리를 위한 방법 및 오디오 데이터의 처리를 위한 방법을 실행하기 위한 청구항 15에 따른 컴퓨터 프로그램에 관한 것이다.

가정용 가전제품(CE) 설비들에서, 기능성이 표준화된 인터페이스들을 통하여 연결되는 몇몇 장치들에 확산된다. 또한 (고품질) 장비는 단일 장치 내에 구성될 뿐만 아니라, 정교한 단일 장치들이 이용 가능하다(셋-톱 박스(set-top box)들, TV-셋, AVR-리시버 참조). 이러한 장치들은 표준화된 인터페이스들(HDMI와 같은)을 통하여 통신한다.

제 1 장치가 원하는 스트림들을 추출하고 모든 인터페이스를 사용자에 제공하는 동안에, 제 2 장치는 흔히 사용자에 어떠한 인터페이스 없이 "슬레이브 모드(slave mode)" 내의 디코딩을 실행한다. 사용자 상호작용 및 디코더의 제어에 관한 한, 이러한 시나리오에서 이러한 사용자 정보를 장치 #1로부터 장치 #2로 전달하는 것이 필수적이다.

예를 들면, 도 9에 도시된 것과 같이, 텔레비전 프로그램은 흔히 적합한 전송 채널을 선택하고 원하는 코딩된 에센스(essence)를 포함하는 관련 기본 스트림(elementary stream)을 추출하는, 셋-톱 박스와 같은 제 1 장치에 의해 수신된다. 이러한 추출된 스트림들은 재생을 위한 오디오-비디오-리시버(Audio-Video-Receiver)와 같은 제 2 장치에 공급될 수 있다. 이러한 두 개의 장치 사이의 전송은 특히 만일 대역폭 제한들이 사용되는 상호연결 라인 상에 적용되면, 디코딩된/분해된 표현(PCM 오디오)의 전송에 의하거나, 또는 인코딩된 표현 내에서 달성될 수 있다.

또한, 원하는 스트림들 및 선택적으로 사용자 상호작용의 선택이 장치 #1(예를 들면, 셋-톱 박스) 내에서 달성되기 때문에, 대부분의 경우들에서 이러한 장치만이 사용자에 제어 인터페이스를 제공한다. 제 2 장치(예를 들면, A/V 리시버)는 단지 시스템을 설정할 때 일반적으로 사용자에 의해 한 번만 액세스되는 구성 인터페이스를 제공하고 정상 작동 시간들에서 "슬레이브 모드"에서 작용한다.

현대 오디오 코덱 전략들은 오디오 신호들의 인코딩을 지원할 뿐만 아니라, 오디오 플레이-아웃(play-out)을 적용하도록 사용자 상호작용을 위한 수단들 및 청취자의 선호도에 대한 렌더링(rendering)을 제공한다. 오디오 데이터 스트림은 다수의 인코딩된 오디오 신호, 예를 들면, 채널 신호들 또는 오디오 오브젝트(audio object)들, 및 오디오 신호들이 확성기(loudspeaker)들에 렌더링되는 오디오 장면(audio scene)을 어떻게 형성하는지를 설명하는 동반하는 메타-데이터 정보로 구성된다.

오디오 오브젝트들의 예들은 다음과 같다:

● 상이한 언어들 내의 다이얼로그(dialogue)

● 오디오 기술(audio description) 같은 부가적인 다이얼로그, 또는

● 음악 및 효과 배경

메타-데이터 정보를 위한 예들은 다음과 같다:

● 각각의 오브젝트 신호의 디폴트 볼륨 레벨(default volume level) (즉, 확성기 프리젠테이션(loudspeaker presentation)을 위하여 혼합된 신호 내로 얼마나 크게 혼합되어야만 하는지)

● 디폴트 공간적 위치(즉, 어디서 렌더링되어야만 하는지)

● 사용자 상호작용이 특정 오브젝트를 허용하는지의, 정보

● 어떻게 사용자가 상호작용하도록 허용되는지의, 정보, 예를 들면 사용자가 오브젝트들을 재-패닝할(re-pan) 수 있는 위치들 상에서의 최소/최대 볼륨 레벨들 또는 제한들

● 오디오 오브젝트들의 분류 및/또는 기술

사용자 상호작용을 달성하기 위하여, 오디오 디코더들/렌더러들(예를 들면, 장치 #2)은 원하는 사용자 상호작용을 위한 제어 정보를 위하여 부가적인 (입력 또는 상호작용) 인터페이스를 제공할 필요가 있다.

대안으로서 또한 오디오 오브젝트 선택을 위한 사용자 제어 및 장치 #1 내의 조작(manipulation)을 디코딩 및 렌더링이 장치 #2에서 구현되고 장치 #1에서는 구현되지 않을 때 이러한 데이터를 장치 #2에 제공하는 것이 바람직할 수 있다.

그러나, 그러한 데이터의 전송은 현존하는 표준화된 연결이 사용자 제어 데이터 및/또는 렌더러 정보를 지원하지 않는다는 사실에 기인하여 제한된다.

대안으로서, 장치 #1을 위하여 위에 설명된 것과 같은 스트림들과 사용자 상호작용의 선택, 및 장치 #2를 위하여 위에 설명된 것과 같은 디코딩은 동일한 장치 내에 포함된 두 개의 개별 기능 성분들에 의해 처리될 수 있는데, 즉 코딩된 데이터 및 및 사용자 상호작용 데이터를 위하여 오직 하나의 인터페이스, 바람직하게는 장치 #1의 상호작용 인터페이스만이 이용 가능하며, 사용자 상호작용 데이터를 위한 제 2 인터페이스, 즉 일반적으로 장치 #2에 의해 제공되는 인터페이스는 생략될 수 있다. 장치 #1 및 장치 #2 모두가 동일한 (하드웨어) 장치 내에 포함되거나 또는 구현되더라도, 이는 분리된 장치 #1 및 #2의 경우를 위하여 설명된 것과 동일한 상황에 이르게 한다.

설명된 사용 경우를 달성하고 위에 설명된 제한들을 극복하기 위하여, 사용자 제어 정보, 또는 일반적으로 상호작용 데이터를 인코딩된 오디오 데이터 스트림 내로 내장하는(embed) 것이 제안된다.

따라서, 현존하는 오디오 데이터 프로세서들을 향상시키는 것이 본 발명의 목적이다.

일반적으로, 제 1 장치는 청구항 1에 정의된 것과 같이 인코딩된 오디오 데이터 및 인코딩된 오디오 데이터와 관련된 메타데이터를 수신하기 위한 리시버 인터페이스; 오디오 데이터 조작 가능성을 결정하도록 메타데이터를 파싱하기 위한 메타데이터 파서(metadata parser); 상호작용 입력을 수신하기 위한, 그리고 상호작용 입력으로부터 오디오 데이터 조작 가능성과 관련된 상호작용 제어 데이터를 발생시키기 위한 상호작용 인터페이스; 및 상호작용 제어 데이터와 인코딩된 오디오 데이터 및 메타데이터를 획득하고 출력 데이터 스트림을 발생시키기 위한 데이터 스트림 발생기;를 포함하는, 오디오 데이터 프로세서로서 구성될 수 있으며, 출력 데이터 스트림은 인코딩된 오디오 데이터, 메타데이터의 적어도 일부분, 및 상호작용 제어 데이터를 포함한다. 다른 바람직한 실시 예들은 첨부된 종속항들 및 또 다른 독립항들에 의해 정의된다.

인코딩된 오디오 데이터는 개별 인코딩된 오디오 오브젝트들을 포함할 수 있으며, 메타데이터의 적어도 일부분은 상응하는 오디오 오브젝트와 관련되며, 메타데이터 파서는 적어도 하나의 오디오 오브젝트를 위하여, 오브젝트 조작 가능성을 결정하도록 인코딩된 오디오 오브젝트들을 위하여 상응하는 부분을 파싱하도록 구성되며, 상호작용 인터페이스는 적어도 하나의 인코딩된 오디오 오브젝트를 위하여, 적어도 하나의 인코딩된 오디오 오브젝트와 관련된 상호작용 입력으로부터 상호작용 제어 데이터를 발생시키도록 구성된다. 따라서, 오디오 오브젝트들은 각각의 상호작용 제어 데이터의 사용에 의해 메타데이터 내에 저장되는 그것들의 상응하는 오브젝트 조작 가능성들 내에서 쉽고 직접적으로 조작될 수 있다.

상호작용 인터페이스는 사용자에, 메타데이터 파서에 의해 메타데이터로부터 유도되는 오디오 데이터 조작 가능성을 제공하도록 구성되고, 사용자로부터, 데이터 조작 가능성의 특정 데이터 조작에 대한 사용자 입력을 수신하도록 구성될 수 있다. 이는 바람직하게는 디코더로부터 외부로, 본 발명의 장치와의 상호작용을 위하여, 예를 들면, 오디오 오브젝트들의 조작을 위하여 사용자에 사용자 인터페이스를 제공하기 위한 실용적인 방법을 실현할 수 있다.

데이터 스트림 발생기는 인코딩된 오디오 데이터 및 인코딩된 오디오 데이터 없이 리시버 인터페이스에 의해 수신된 메타데이터를 포함하는 데이터 스트림을 처리하도록 구성될 수 있거나, 또는 인코딩된 오디오 데이터 및 출력 데이터 스트림의 변화가 없는 메타데이터의 적어도 일부분을 복사하도록 구성될 수 있으며, 데이터 스트림 발생기는 상호작용 제어 데이터를 포함하는 부가적인 데이터 부분을 인코딩된 오디오 데이터 및/또는 출력 데이터 스트림 내의 메타데이터에 추가하도록 구성된다. 이는 더 적은 복잡도의 장점을 제공하는데 그 이유는 오디오 데이터 프로세서가 오디오 신호들을 디코딩할 필요가 없기 때문이다. 이는 단지 메타-데이터를 파싱하고 및 이를 다시 인코딩된 오디오 데이터 스트림의 메타-데이터 부분에 판독하는 것만 요구한다.

데이터 스트림 발생기는 출력 데이터 스트림 내에서, 메타데이터와 동일한 포맷으로 상호작용 제어 데이터를 발생시키도록 구성될 수 있다. 따라서, 어떠한 상호작용 제어 데이터도 바람직하게는 출력 데이터 스트림 내로 통합될 수 있다.

데이터 스트림 발생기는 출력 데이터 스트림 내의 식별자(identifier)를 상호작용 제어 데이터와 연관시키도록 구성될 수 있으며, 식별자는 메타데이터와 연관되는 식별자와는 다르다. 조작된 메타-데이터를 위한 상이한 식별자의 사용의 장점은 원격 디코더가 수신된 조작된 데이터 스트림으로부터 상호작용을 식별하는 것을 가능하게 할 수 있고 또한 원래 데이터를 수신할 수 있다는 것이다.

데이터 스트림 발생기는 서명 데이터(signature data)를 상호작용 제어 데이터에 추가하도록 구성될 수 있으며, 서명 데이터는 적용에 대한 정보, 상호작용을 실행하는 장치 또는 사용자, 예를 들면 오디오 데이터 조작 또는 사용자 입력의 정보를 나타낸다. 원래 및 조작된 데이터를 전송함으로써 메타-데이터의 재설정이 가능하다. 메타데이터 내의 서명은 조작의 기원을 추적하도록 허용한다.

메타데이터 파서는 인코딩된 오디오 데이터에 의해 표현되는 하나 이상의 오디오 오브젝트의 불능화(disabling) 가능성을 식별하도록 구성될 수 있으며, 상호작용 인터페이스는 하나 이상의 오디오 오브젝트를 위한 불능화 정보를 수신하도록 구성되며, 데이터 스트림 발생기는 상호작용 제어 데이터 내에서 하나 이상의 오디오 오브젝트를 불능화된 것으로 표시하도록 구성되거나 또는 출력 데이터 스트림이 불능화된 하나 이상의 오디오 오브젝트를 위한 인코딩된 오디오 데이터를 포함하지 않도록 인코딩된 오디오 데이터로부터 불능화된 하나 이상의 오디오 오브젝트를 제거하도록 구성된다. 따라서, 데이터 스트림은 현재 비트 스트림의 총 데이터 스트림이 감소될 수 있는 것과 같이 실제로 또는 현재 이용 가능한 그러한 오디오 오브젝트들에 적응될 수 있다.

데이터 스트림 발생기는 축력 데이터 스트림을 동력학적으로 발생시키도록 구성될 수 있으며, 새로운 상호작용 입력에 응답하여, 상호작용 제어 데이터는 새로운 상호작용 입력과 일치하도록 업데이트되며, 데이터 스트림 발생기는 출력 데이터 스트림 내에 업데이트된 상호작용 제어 데이터를 포함하도록 구성된다. 따라서, 데이터 스트림은 실-시간 정보로 보내질 수 있다. 바꾸어 말하면, 어떠한 오디오 오브젝트 특정 값들에 관한 상호작용 입력은 빠른 방식으로, 바람직하게는 실-시간으로 업데이트되고 처리될 수 있다.

리시버 인터페이스는 인코딩된 오디오 데이터 및 인코딩된 오디오 데이터와 관련된 메타데이터를 포함하는 주 오디오 데이터 스트림을 수신하고, 부가적으로 선택적 오디오 오브젝트를 포함하는 선택적 오디오 데이터를 수신하도록 구성될 수 있으며, 상기 선택적 오디오 오브젝트와 관련된 메타데이터는 상기 주 오디오 데이터 스트림 내에 포함된다. 이러한 구성 내에서, 오디오 데이터 프로세서는 선택된 선택적 오디오 오브젝트의 인코딩된 오디오 데이터를 데이터 스트림 발생기에 의해 완전한 출력 오디오 데이터 스트림을 야기하는 주 오디오 데이터 스트림 내로 병합할 수 있다. 따라서, 선택적 오디오 오브젝트들이 그 뒤에 또는 요구에 따라 부가적으로 사용자에 제공될 수 있다.

메타데이터 파서는 인코딩된 오디오 데이터 내에 포함되지 않은 손실 오디오 오브젝트를 위한 오디오 조작 가능성을 결정하도록 구성될 수 있으며, 상호작용 인터페이스는 손실 오디오 오브젝트를 위한 상호작용 입력을 수신하도록 구성되며, 리시버 인터페이스는 브로드캐스트 스트림(broadcast stream) 또는 인터넷 프로토콜 연결 내에 포함된 상이한 서브스트림으로부터 손실 오디오 오브젝트를 위한 오디오 데이터를 요구하도록 구성된다. 따라서, 장치 또는 사용자는 미리, 즉 실제로 손실되는 동안에 선택적으로 이용 가능한 부가적인 오디오 오브젝트를 조작할 수 있다.

데이터 스트림 발생기는 출력 데이터 스트림 내에서, 또 다른 패킷 형태를 상호작용 제어 데이터에 할당하도록 구성될 수 있으며, 또 다른 패킷 형태는 인코딩된 오디오 데이터 및 메타데이터를 위한 패킷 형태와 다르거나, 또는 데이터 스트림 발생기는 출력 데이터(fill data) 스트림 내로, 충전 데이터 패킷 형태로 충전 데이터를 가산하도록 구성되며, 충전 데이터의 양은 오디오 데이터 프로세서의 출력 인터페이스에 의해 결정되는 데이터 비율 요구조건을 기초로 하여 결정된다. 따라서, 하나의 또 다른 패킷 형태만이 각각, 조작된 메타-데이터 또는 상호작용 제어 데이터의 전송을 달성하도록 할당하는데 필요하다. 게다가, 오디오 데이터 프로세서는 주어진, 일반적으로 그러한 링크를 위한 높은 데이터 비율 요구조건을 충족시키기 위하여 부가적인 충전 데이터를 뒤따르는 데이터 전송 스트림 내로 추가하기를 원할 수 있다. 이러한 충전 데이터는 어떠한 정보도 포함하지 않을 수 있으며 디코더에 의해 무시되도록 예상된다.

오디오 데이터 프로세서는 개별 장치로서 구현될 수 있으며, 리시버 인터페이스는 유선 또는 무선 연결을 통하여 개별 장치로의 입력을 형성할 수 있으며, 오디오 데이터 프로세서는 데이터 스트림 발생기에 연결되는 출력 인터페이스를 더 포함할 수 있고, 출력 인터페이스는 출력 데이터 스트림을 출력하도록 구성되며, 출력 인터페이스는 장치의 출력을 실행하고 무선 인터페이스 또는 유선 커넥터를 포함한다. 따라서, 예를 들면 네트워크 내에, 간단한 연결이 제공될 수 있다.

본 발명은 또한 오디오 데이터를 처리하기 위한 방법에 의해 실현될 수 있으며, 방법은: 인코딩된 오디오 데이터 및 인코딩된 오디오 데이터와 관련된 메타데이터를 수신하는 단계; 오디오 데이터 조작 가능성을 결정하도록 메타데이터를 파싱하는 단계; 상호작용 입력을 수신하는 단계 및 상호작용 입력으로부터 오디오 데이터 조작 가능성과 관련된 상호작용 제어 데이터를 발생시키는 단계; 및 상호작용 제어 데이터와 인코딩된 오디오 데이터 및 메타데이터를 획득하는 단계 및 출력 데이터 스트림을 발생시키는 단계;를 포함하며, 출력 데이터 스트림은 인코딩된 오디오 데이터, 메타데이터의 적어도 일부분, 및 상호작용 제어 데이터를 포함한다.

본 발명은 또한 컴퓨터 또는 프로세서 상에서 구동할 때, 앞서 언급된 오디오 데이터의 처리 방법을 실행하기 위한 컴퓨터 프로그램에 의해 실현될 수 있다.

본 발명은 또한 아래의 실시 예들에 의해 실현될 수 있다:

오디오 데이터 조작 가능성은 적어도 하나의 오브젝트 선택, 몇몇 언어들 중에서의 선택, 선택적 부가적인 오디오 오브젝트들의 선택, 오브젝트 조작, 하나 이상의 오브젝트의 볼륨의 변화, 중앙 스피커로부터 오른쪽 스피커로의 부가적인 논평(commentary)의 이동 같은 오브젝트들의 위치 또는 그것들 사이의 임의 위치의 변화, 각각의 오브젝트를 개별적으로 선택하고 조작하는 대신에, 프리셋(preset)들의 선택을 포함하는 그룹으로부터 선택될 수 있으며, 메타데이터로부터의 프리셋이 선택되고, 프리셋은 특정 적용 또는 특정 사용 시나리오를 위하여 콘텐츠 생성기(content creator)에 의해 추천되는 오브젝트들의 사전-선택이며, 프리셋은 예를 들면 디폴트 표시와 비교하여 상이한 볼륨 레벨들, 위치들 및 라우드니스(loudness)/동적 범위 압축 데이터를 갖는 오브젝트들의 조합을 포함한다.

데이터 스트림 발생기는 독립 정보로서 또는 종속 정보로서 상호작용 제어 데이터를 발생시키도록 구성될 수 있으며, 종속 정보는 만일 상호작용 입력에 의해 정의되는 데이터 조작 내의 메타데이터와 함께, 디코딩되는 오디오 데이터에 적용되면, 메타데이터 및 결과들에 의존한다.

인코딩된 오디오 데이터는 선택적 오디오 오브젝트들을 포함할 수 있고 메타데이터는 선택적 오디오 오브젝트를 위한 메타데이터를 포함할 수 있으며, 리시버 인터페이스는 부가적으로 주 오디오 데이터를 갖는 주 오디오 데이터 스트림을 수신하도록 구성될 수 있으며, 데이터 스트림 발생기는 출력 데이터 스트림이 부가적으로 주 오디오 데이터를 포함하도록 하기 위하여 출력 데이터 스트림을 발생시키도록 구성될 수 있다.

데이터 스트림 발생기는 오류 보호 데이터(error protection data)를 출력 데이터 스트림에 추가하고 또 다른 패킷 형태를 오류 보호 데이터에 할당하도록 구성될 수 있으며, 데이터 스트림 발생기는 인코딩된 오디오 데이터, 메타데이터 또는 상호작용 제어 데이터로부터 오류 보호 데이터를 유도하도록 구성된다.

데이터 스트림 발생기는 스트리밍을 위한 데이터 스트림으로서 또는 ISO MPEG-4 파일 포맷과 같은 파일 포맷 내의 컨테이너 기반 파일로서 출력 데이터 스트림을 발생시키도록 구성될 수 있다.

또한 오디오 데이터 프로세서가 인코딩된 오디오 데이터를 디코딩하는 기능성을 갖지 않는 것이 제안된다.

오디오 데이터 프로세서는 셋-톱 박스, 텔레비전 세트 또는 오디오/비디오 리시버 내에서 구현될 수 있다.

오디오 데이터 프로세서는 HDMI 연결을 통하여 출력 데이터 스트림을 또 다른 장치에 전송하기 위한 출력 인터페이스를 더 포함할 수 있다.

동일한 (하드웨어) 장치 내의 디코더와 함께 통합되거나 또는 구현되는 오디오 데이터 프로세서가 또한 제공될 수 있다. 예를 들면, 오디오 데이터 프로세서 및 디코더는 TV, 셋-톱 박스, A/V 리시버 등 내에 함께 제공될 수 있다. 오디오 데이터 프로세서 및 디코더는 내부 데이터 버스 구조들을 통하여 통신할 수 있다. 그러한 구성은 시스템-온-칩(System-on-chip, SoC) 솔루션들을 포함하는 TV-장치들에 특히 바람직할 수 있다.

따라서 또는 대안으로서, 오디오 데이터 프로세서는 개별 장치의 경우를 위하여 위에 설명된 경우와 동일한 장치 내에서 독립적이고 개별적인 기능성 성분으로서 구현될 수 있으며, 유일한 차이점은 출력 인터페이스가 예를 들면 내부 데이터 버스(data bus)를 사용하여, 장치 내부의 연결 상에서 오디오 데이터 프로세서의 출력을 실행한다는 점이다.

위에 언급된 특징들과 관련하여, 본 발명에 따른 오디오 데이터 프로세서는 장치 또는 사용자와의 쉬운 상호작용을 제공할 수 있으며, 동시에, 바람직하게는 현존하는 설비들을 사용하여, 간단한 장치 설정을 제공할 수 있다.

게다가, 본 발명에 따른 오디오 데이터 프로세서는 부가적인 상호작용 데이터로서 장치 상호작용 및 사용자 상호작용을 오디오 비트스트림 내에 내장함으로써 위에 언급된 문제점에 대한 해결책을 제공한다. 위에 설명된 특징들의 구현에 의해, 디코더 구현들은 인코딩된 표현 데이터 및 상호작용 제어 데이터 모두를 취하는 단지 하나의 인터페이스만을 필요로 할 수 있다. 이미 존재하는 상호작용들은 제어 정보를 위하여 새로운 채널을 구현할 필요가 없을 수 있으나, 구현 효과는 코덱 자체 내로 이동된다. 복잡한 설정들에서, 상호작용 제어 정보가 인코딩된 에센스와 밀접하게 관련되고 따라서 몇몇 처리 단계들을 통하여 제공될 때 손실되지 않을 수 있다는 것이 또한 보장된다.

본 발명에 따른 실시 예들의 예들이 도면에 도시되고 아래에 설명될 것이다.
도 1은 본 발명에 따른 오디오 데이터 프로세서를 도시한다.
도 2는 본 발명에 따른 오디오 데이터의 처리를 위한 방법을 도시한다.
도 3은 인코딩된 오디오 데이터 및 관련 메타데이터의 일례를 도시한다.
도 4는 입력 및 출력 스트림들의 처리의 일례를 도시한다.
도 5는 입력 및 출력 스트림들의 처리의 또 다른 예를 도시한다.
도 6은 선택적 오디오 데이터를 처리하는 오디오 데이터 프로세서를 도시한다.
도 7은 개별 장치 내에 구현되는 오디오 데이터 프로세서를 도시한다.
도 8은 제 1 장치 및 제 2 장치의 바람직한 사용 경우를 도시한다.
도 9는 셋-톱 박스 및 오디오-비디오 리시버로의 바람직한 시나리오를 도시한다.

본 문서에서 대체로, 그리고 특히 아래의 설명에서, 용어 "상호작용"은 사용자에 의한 상호작용 또는 장치에 의한 상호작용의 의미뿐만 나이라, 일반적인 상호작용, 즉 일반적인 상식에서의 상호작용의 의미로 사용된다. 바꾸어 말하면, "상호작용"은 "사용자 상호작용: 또는 "장치 상오작용", 또는 일반적인 상호작용을 의미한다. 설명의 특정 부분들에서, 용어들 "사용자" 및 "상호작용"은 동의어로 사용된다. 예를 들면, 사용자 인터페이스는 상호작용 인터페이스의 의미로 동의어로 사용되고 번대도 마찬가지이다.

게다가, "사용자"는 인간 사용자 또는 (하드웨어) 장치 또는 소프트웨어-구현 장치와 같은, 기계 사용자일 수 있다.

또한, 사용자 인터페이스는 독점적으로 또는 부가적으로 사용자 입력에 대하여, 데이터 조작을 제어할 수 있는 장치 특이 프리셋 구성으로서 존재할 수 있다.

도 1은 본 발명의 오디오 데이터 프로세서(1)를 도시한다. 오디오 데이터 프로세서(1)는 인코딩된 오디오 데이터(3) 및 메타데이터(4)를 포함하는 인코딩된 입력 스트림(15)을 수신하기 위한 리시버 인터페이스(2)를 포함한다. 메타데이터(4)는 인코딩된 오디오 데이터(3)와 관련되고, 이러한 관계는 화살표(110)에 의해 표시된다. 예를 들면, 인코딩된 오디오 데이터(3)는 오디오 오브젝트들을 포함할 수 있으며 메타데이터(4)는 상기 오디오 오브젝트들의 조작 가능성들에 대한 또 다른 정보를 포함할 수 있다.

오디오 데이터 프로세서(1)는 오디오 데이터 조작 가능성을 결정하도록 메타데이터(4)를 파싱하기 위한 메타데이터 파서(5)를 더 포함한다. 예를 들면, 조정 가능한 볼륨 레벨, 조정 가능한 공간 위치 또는 선택 가능한 언어가 오디오 오브젝트의 오디오 데이터 조작 가능성을 표현할 수 있다.

게다가, 오디오 데이터 프로세서(1)는 상호작용 입력(7)을 수신하기 위한 상호작용 인터페이스(6)를 포함한다. 상호작용 인터페이스(6)는 또한 상호작용 입력(7)을 기초로 하여 상호작용 제어 데이터(8)를 발생시키도록 구성된다. 상기 상호작용 제어 데이터(8)는 앞서 언급된 오디오 데이터 조작 가능성과 관련된다. 예를 들면, 사용자는 오디오 오브젝트의 볼륨 레벨 또는 공간 위치의 조정에 의해, 혹은 상호작용 인터페이스(6)를 통한 언어의 선택에 의해 장치와 상호작용할 수 있다. 이러한 경우에서, 상호작용 인터페이스(6)는 사용자의 선택과 관련된 상응하는 사용자 제어 데이터(8)를 발생시킬 수 있는 사용자 인터페이스(6)이다.

부가적으로 또는 대안으로서, 상호작용 인터페이스(6)는 장치 (특이) 상호작용 인터페이스(6)일 수 있다. 이러한 경우에, 장치 상호작용 인터페이스(6)는 장치 상호작용 입력(7)을 기초로 하여 장치 상호작용 제어 데이터(8)를 발생시키도록 구성된다. 예를 들면, 헤드폰 등과 같은 장치가 상호작용 인터페이스(6)에 연결될 수 있다. 헤드폰 및 상호작용 인터페이스(6) 사이의 연결은 오디오 프로세서에 의해 검출될 수 있으며 따라서 상호작용 입력(7)으로서 간주될 수 있다. 따라서, 헤드폰의 연결 상에서, 상호작용 인터페이스(6)는 오디오 오브젝트 조작, 예를 들면 볼륨의 자동 감소, 미리 선택되는 언어 또는 하드웨어 구성에서의 조정과 같은, 헤드폰 특이 상호작용 제어 데이터(8)를 제공한다.

바꾸어 멀하면, 수동 사용자 상호작용 대신에, 상호작용 인터페이스(6)는 특정 장치들의 검출을 기초로 하여 오브젝트들 또는 조정들을 자동으로 선택한다. 상호작용 인터페이스(6)는 장치 특이 상호작용 제어 데이터(8)를 발생시킨다.

오디오 데이터 프로세서(1)는 데이터 스트림 발생기(9)를 더 포함한다. 데이터 스트림 발생기(9)는 상호작용 제어 데이터(8), 인코딩된 오디오 데이터(3) 및 메타데이터(4)를 획득한다. 데이터 스트림 발생기(9)는 앞서 언급된 상호작용 제어 데이터(8), 인코딩된 오디오 데이터(3) 및 메타데이터(4)를 포함하는 출력 데이터 스트림(10)을 발생시키도록 구성된다.

도 2는 본 발명에 따라는 오디오 데이터의 처리를 위한 상응하는 방법을 도시한다.

단계(201)에서 인코딩된 오디오 데이터(3) 및 관련 메타데이터(4)가 수신된다.

단계(202)에서 메타데이터(4)는 오디오 데이터 조작 가능성을 결정하도록 파싱된다.

단계(203)에서 상호작용 입력이 수신되며, 오디오 데이터 조작 가능성과 관련된 상호작용 제어 데이터는 단계(204)에서 상기 상호작용 입력으로부터 발생된다.

단계(205)에서 상호작용 제어 데이터와 인코딩된 오디오 데이터 및 메타데이터가 획득되고, 축력 데이터 스트림이 발생되며, 상기 출력 데이터 스트림은 인코딩된 오디오 데이터, 메타데이터의 적어도 일부분 및 상호작용 제어 데이터를 포함한다.

도 3을 참조하면, 인코딩된 오디오 데이터(3)는 개별 인코딩된 오디오 오브젝트들(11, 12)을 포함한다. 게다가, 메타데이터(4)의 적어도 일부분(13, 14)은 상응하는 오디오 오브젝트(11, 12)와 관련된다(화살표(110, 120)에 의해 표시). 예를 들면, 메타데이터의 일부분 'MD1'(13)은 상응하는 인코딩된 오디오 오브젝트 'AO1'(11)와 관련되고, 메타데이터의 일부분 'MD2'(14)는 상응하는 인코딩된 오디오 오브젝트 'AO2'(12)와 관련된다.

메타데이터 파서(5)는 상기 오디오 오브젝트들(11, 12) 중 적어도 하나의 오브젝트 조작 가능성을 결정하기 위하여 인코딩된 오디오 오브젝트들(11, 12)을 위하여 상응하는 부분(13, 14)을 파싱하도록 구성된다. 바꾸어 말하면, 메타데이터 파서(5)는 각각의 오디오 오브젝트(11, 12)를 위한 오디오 오브젝트 조작 가능성을 결정하기 위하여 각각의 오디오 오브젝트들(11, 12)을 위한 메타데이터(13, 14)를 파싱한다. 예를 들면, 메타데이터 파서(5)는 오디오 오브젝트 'AO1'(11)가 조정 가능한 볼륨 레벨을 포함할 수 있는 것을 결정한다. 메타데이터 파서(5)는 사용자 인터페이스(6)를 통하여 이러한 잠재적인 볼륨 레벨 조정 가능성(오디오 오브젝트 조작 가능성)을 사용자에 제공할 수 있다.

사용자 인터페이스(6)는 적어도 하나의 오디오 오브젝트(11, 12)를 위하여, 적어도 하나의 인코딩된 오디오 오브젝트(11, 12)와 관련된 사용자 입력(7)으로부터 사용자 제어 데이터(8)를 발생시키도록 구성된다. 예를 들면, 사용자는 오디오 오브젝트 'AO1'(11)의 볼륨 레벨을 조정하는 것을 원할 수 있고 따라서 사용자 인터페이스(6)를 통하여 각각의 입력(7)을 제공한다. 사용자 인터페이스(6)는 어느 정도까지 사용자가 오브젝트 'AO1'(11)의 볼륨 레벨을 조정하는 것을 원하는 정보를 포함하는 각각의 사용자 제어 데이터(8)를 발생시킨다.

따라서, 사용자 인터페이스(6)는 메타데이터 파서(5)에 의해 메타데이터(4)로부터 유도되는 오디오 오브젝트(11, 12)의 오디오 오브젝트 조작 가능성을 사용자에 제공하도록 구성된다. 사용자 인터페이스(6)는 또한 데이터 조작 가능성(예를 들면, 볼륨 레벨 조정 범위 또는 이용 가능한 언어들의 세트)의 특정 데이터 조작(예를 들면 특정 볼륨 레벨 또는 특정 언어)에 에 대하여 사용자로부터 사용자 입력(7)을 수신하도록 구성된다.

도 1 및 도 9를 참조하면, 데이터 스트림 발생기(9)는 인코딩된 오디오 데이터(3) 및 인코딩된 오디오 데이터(3)의 디코딩 없이 리시버 인터페이스(2)에 의해 수신되는 메타데이터(4)를 포함하는 데이터 스트림(15)을 처리하도록 구성된다. 예를 들면, 본 발명에 따른 오디오 데이터 프로세서(1)가 셋-톱 박스(19, 26) 내에서 구현되는 것으로 가정하면, 이는 출력 데이터 스트림(10, 32)을 디코더를 포함하는 외부 오디오/비디오 리시버(28, 33)로 전달할 수 있다. 이러한 경우에, 출력 데이터 스트림(10, 32)은 여전히 인코딩될 수 있는데 그 이유는 디코딩이 셋-톱 박스(19, 26)가 아닌, 오디오/비디오 리시버(28, 33)에 의해 실행될 것이기 때문이다.

대안으로서, 데이터 스트림 발생기(9)는 출력 데이터 스트림(10)의 변화 없이 인코딩된 오디오 데이터(3) 및 메타데이터(4)를 복사하도록 구성된다.

어떠한 경우에도, 데이터 스트림 발생기(9)는 도 4에서 알 수 있는 것과 같이, 상호작용 제어 데이터(8)를 포함하는 부가적인 데이터 부분을 출력 데이터 스트림(10) 내의 인코딩된 오디오 데이터(3) 및/또는 메타데이터(4)에 추가하도록 구성된다.

도 5를 참조하면, 데이터 스트림 발생기(9)는 또한 두 개의 입력 스트림(15a, 15b)을 공통 출력 스트림(10) 내로 병합하도록 구성되며, 상호작용 제어 데이터(8)를 포함하는 부가적인 데이터 부분은 출력 데이터 스트림(10) 내의 인코딩된 오디오 데이터(3) 및/또는 메타데이터(4)에 추가된다.

바람직하게는, 데이터 스트림 발생기(9)는 출력 데이터 스트림(10) 내에서, 메타데이터(4)와 동일한 포맷으로 상호작용 제어 데이터(8)를 발생시키도록 구성된다. 따라서, 상호작용 제어 데이터(8)는 이용 가능한 메타데이터(4)와 쉽게 결합될 수 있다.

만일, 위에 언급된 것과 같이, 데이터 스트림 발생기(9)가 메타데이터(4)를 복사하면, 원래 메타-데이터(4)는 각각의 오디오 오브젝트들(11, 12)을 위한 부가적인 상호작용 제어 데이터(8)를 포함하는 어떠한 조작된 메타-데이터에 더하여 출력 스트림(10) 내에 남을 수 있다. 원래 및 조작된 메타-데이터 모두는 디코더(28, 33)가 (사용자) 상호작용의 결과로서 차이점들을 식별하고 콘텐츠 생성기(content creator)에 의해 의도되는 것과 같이 디폴트 값들에 관한 정보를 획득하거나 또는 원래 메타-데이터(4) 및 조작된 메타-데이터(4')로부터 (사용자) 상호작용(또는 사용자 제어 데이터(8))의 결과를 계산하는 것을 허용하기 위하여 디코더에 보내질 수 있다.

도 1을 더 참조하면, 데이터 스트림 발생기(9)는 축력 데이터 스트림(10)을 동역학적으로 발생시키도록 구성된다. 언제든지 사용자 또는 장치는 새로운 상호작용 입력(7)을 상호작용 인터페이스(6)에 제공하고, 상호작용 제어 데이터(8)는 상기 새로운 상호작용 입력(7)에 일치하도록 이에 알맞게 업데이트된다. 데이터 스트림 발생기(9)는 출력 데이터 스트림(10) 내의 이러한 업데이트된 상호작용 제어 데이터(8)를 포함한다.

도 6은 본 발명에 따른 오디오 데이터 프로세서(1)를 도시하며, 선택적 오디오 정보가 처리된다. 도시된 것과 같이, 입력 데이터 스트림(15)은 인코딩된 오디오 데이터(3) 및 관련 메타데이터(4)를 포함하는 주 오디오 데이터 스트림이다. 게다가, 리시버 인터페이스(2)는 부가적으로 선택적 오디오 오브젝트(17)를 포함하는 선택적 오디오 데이터(16)를 수신한다.

그러나, 상기 부가적인 선택적 오디오 오브젝트 'AOx'(17)와 관련된 메타데이터, 즉 상기 선택적 오디오 오브젝트 'AOx'(17)의 조작 가능성들에 대한 정보는 주 오디오 데이터 스트림(15) 내에 포함된다. 따라서, 오디오 오브젝트(17)가 알려지나 존재하지는 않으며 선택적이다.

예를 면, 사용자는 드럼, 스트링(string) 및 피아노를 포함하는 오케스트라를 청취한다. 관악기들이 선택적으로 포함될 수 있다. 만일 청취자가 이제 관악기를 추가하기를 원하면, 사용자는 선택적 오디오 오브젝트(17)로서 선택적 관악기, 예를 들면 트럼펫을 추가함으로써 그렇게 할 수 있다. 상기 트럼펫을 위한 조작 가능성들이 이미 주 오디오 데이터 스트림(15)의 메타데이터(4) 내에 포함되기 때문에, 사용자는 그의 바람에 따라 현재 추가되는 트럼펫을 조작하는 가능성을 갖는다.

도 6을 더 참조하면, 상기 부가적인 오디오 오브젝트 'AOx'(17)는 인코딩된 오디오 데이터(3) 및/또는 메타데이터(4) 내에 포함되지 않은 손실 오디오 오브젝트일 수 있다. 따라서, 오디오 오브젝트(17)는 알려지지 않고 따라서 손실된다.

이러한 경우에, 리시버 인터페이스(2)는 오디오 데이터 제공자로부터 오디오 데이터 상기 손실 오디오 오브젝트에 속하는 오디오 데이터(16)를 요구하도록 구성된다. 리시버 인터페이스(2)는 또한 브로드캐스트 스트림(36) 내에 포함되는 상이한 서브스트림으로부터 상기 오디오 데이터(16)를 수신하도록 구성된다. 리시버 인터페이스(2)는 또한 인터넷 프로토콜 연결을 통하여 인터넷(37)으로부터 상기 오디오 데이터(16)를 검색하도록 구성된다.

예를 들면, 영화를 시청하는 사용자는 예를 들면 영어, 독일어 및 프랑스어를 포함하는, 언어의 이용 가능한 세트로부터 특정 언어를 선택할 수 있다. 제 4 언어가 알려지나 존재하지 않으며 따라서 손실된다. 그러나, 제 4 언어는 예를 들면 인터넷을 통하여, 그 뒤에 제공될 수 있다.

다시 도 4 및 도 5를 참조하면, 입력 데이터 스트림(15) 및 출력 데이터 스티림(10)은 일반적으로 패킷화된 구조로 이용 가능할 수 있다. 예를 들면, 직렬 ㅇ인터페이스에 대한 EG-H 오디오의 전송은 MHAS 전송 구문(N14459(ISO/IEC 23008-3 위원회안 텍스트) [1]의 섹션 13 N23008-3 참조)에 의해 정의된다. 이러한 구문은 패킷화된 방식으로 정의된다.

따라서, 조작된 메타-데이터(4) 또는 상호작용 제어 데이터(8)의 전송을 달성하기 위하여, 단지 하나의 또 다른 패킷 형태가 새로운 제어 정보를 위하여 할당되는데 필요하다.

게다가, 오디오 데이터 프로세서(1)를 포함하는 제 1 장치 'device#1'(19)는 그러한 링크를 위하여 주어진, 일반적으로 훨씬 높은 데이터 비율 요구조건을 충족시키기 위하여 뒤따르는 전송 스트림(10) 내로 부가적인 충전 데이터(18)를 추가하기를 원할 수도 있다. 이러한 충전 데이터(18)는 어떠한 정보도 포함하지 않을 수 있으며 조작된 출력 스트림(10)을 수신하는 제 2 장치에 의해 무시되는 것으로 기대된다. 이를 달성하기 위하여, 또 다른 데이터 패킷 형태가 할당될 수 있다.

또한, 전송 층이 부가 정보로서 부가적인 데이터를 전송할 수 있기 때문에, 이러한 데이터 패킷들은 또한 또 다른 패킷 형태로서 MHAS 오디오 스트림 내로 패킹될 수 있다. 이러한 데이터를 위한 일례가 MPEG-2 전송 및 프로그램 스트림 내의 기술자(descriptor)들이다.

인코딩된 오디오 데이터의 저장을 위한 또 다른 예는 ISO mp4 파일 포맷이다. 파일 포맷의 경우를 위하여 메타데이터를 파일에 판독하고, 조작하며 다시 기록하거나(write) 또는 인코딩된 오디오 데이터의 변경 없이 원래 메타-데이터에 더하여 사용자 제어 데이터를 저장하는 것이 가능하다.

참고문헌들

[1] ISO N14459 (ISO/IEC 23008-3 Committee Draft Text)

[2] IEC 60958-3: Digital audio interface - Part 3: Consumer applications"

[3] IEC 61937-11, "Digital audio - Interface for non-linear PCM encoded audio bitstreams applying IEC 60958 - Part 11: MPEG-4 AAC and its extensions in LATM/LOAS"

이제 도 7을 참조하면, 오디오 데이터 프로세서(1)는 개별 장치 "device#1'(19)로서 구현된다. 상기 개별 장치(19)에서, 리시버 인터페이스(2)는 유선 연결(21) 또는 무선 연결(22)을 통하여 개별 장치(19)에 대한 입력(20)을 형성한다.

오디오 데이터 프로세서(1)는 데이터 스트림 발생기(9)에 연결되고 장치(19)를 위한 출력을 제공하는 출력 인터페이스(23)를 더 포함한다. 또한, 출력 인터페이스(23)는 무선 인터페이스(24) 또는 유선 커넥터(25)를 통하여 출력 데이터 스트림(10)을 출력하도록 구성된다.

본 발명을 수행하는 또 다른 방법은 두 개의 개별 장치가 이용 가능한 시나리오에서의 예에 의해 설명될 수 있다. 제 1 장치 'device#1'는 본 발명에 따른 오디오 데이터 프로세서를 포함한다. 제 2 장치 'device#2'는 상기 오디오 데이터의 디코딩을 위하여 'device#1'로부터 처리되었으나, 여전히 인코딩되는, 오디오 데이터를 수신한다.

도 8 및 9에서 알 수 있는 것과 같이, 제 1 장치(19, 28)는 인코딩된 오디오 데이터(3) 및 관련 메타데이터(4)를 포함하는 입력 스트림(15)을 수신한다. 제 1 장치(19, 26)는 입력(incoming) 오디오 데이터 스트림(15) 또는 전송 스트림으로부터 메타-데이터 정보(4)를 판독하고 인코딩된 오디오데이터(3)를 본래 그대로 둔다. 제 1 장치(19, 26)는 메타-데이터(4)를 파싱하고 적용, 예를 들면 메타-데이터(4)의 일부분인 오브젝트 조작에 대한 제한들을 포함하는, 상호작용 인터페이스(6)에 오브젝트들에 관한 정보를 제공한다. 적용 또는 상호작용 인터페이스(6)로부터 사용자는 오디오 표현을 개인적 선호도에 적응시키도록 오브젝트들을 선택하고 조작할 수 있다:

● 오브젝트 선택: 예를 들면, 몇몇 언어들 중에서 하나의 선택, 산택적 부가적인 오디오 오브젝트들의 선택 등.

● 오브젝트 조작: 예를 들면, 오브젝트들의 볼륨의 변경, 중앙 스피커로부터 오른쪽 스피커로의 부가적인 논평의 이동 같은 오브젝트들의 위치 또는 그것들 사이의 임의의 위치의 변경,

● 프리셋들의 선택: 각각의 오브젝트를 개별적으로 선택하고 조작하는 대신에, 사용자는 또한 메타데이터로부터 프리셋을 선택할 수 있다. 프리셋은 특정 적용들 또는 사용 시나리오들을 위하여 콘텐츠 생성기에 의해 추천되는 오브젝트들의 사전-선택이다. 프리셋은 예를 들면 디폴트 프레젠테이션과 비교하여 상이한 볼륨 레벨들, 위치들 및 라우드니스/동역학적 범위 압축 데이터를 갖는 오브젝트들의 조합을 포함할 수 있다.

그 다음 단계에서, 제 1 장치(19, 26)는 인코딩된 오디오 데이터 스트림(10, 32) 내로 사용자 상호작용에 대한 정보(상호작용 제어 데이터(8))를 저장한다. 제 1 장치(19, 26)는 제 1 장치(19, 26)의 출력이 다시 유효한 인코딩된 오디오 스트림(10, 32)이 되도록 변경된 값들 또는 조작의 양, 예를 들면 오프셋 값들 및 조작 인자를 다시 메타-데이터 부분(4) 또는 인코딩된 오디오 데이터 스트림의 전용 부분에 기록할 수 있다.

제 1 장치(19, 26)는 각각, 조작된 메타-데이터 또는 사용자 제어 데이터(8)를 캡슐화하도록(encapsulate) 상이한 식별자, 태그(tag) 또는 패킷 형태를 사용할 수 있다. 원래 메타-데이터(4)는 조작된 메타-데이터에 더하여 출력 스트림(10, 32) 내에 남을 수 있다. 상이한 식별자, 태그 또는 페킷 형태는 제 2 장치(28, 33)가 메타-데이터(4)가 이전에 조작되었는지를 식별하는 것을 가능하게 하도록 각각, 조작된 메타-데이터 또는 상호작용 제어 데이터(8)를 위하여 사용될 수 있다. 원래 메타-데이터(4)는 제 2 장치(28, 32)가 사용자 또는 장치 상호작용의 결과로서 차이들을 식별하고 콘텐츠 생성기에 의해 의도되는 것과 같이 디폴트 값들에 관한 정보를 계산하는 것을 허용하거나, 또는 원래 메타-데이터(4) 및 조작된 메타 데이터(또는 사용자 제어 데이터(8))로부터 사용자 또는 장치 상호작용의 결과를 계산하는 것을 허용하도록 스트림(10, 32) 내에 남을 수 있다.

조작된 메타데이터의 일부분으로서, 서명 데이터가 메타-데이터(4) 내에 내장될 수 있다. 서명은 메터데이터(4)를 조작한, 적용, 장치 또는 사용자 정보를 포함할 수 있다.

사용자에 의해 선택된 오디오 오브젝트들은 메타-데이터(4) 또는 상호작용 제어 데이터(8) 내에 불능으로서 표시되거나, 또는 대안으로서 이러한 오브젝트들의 인코딩된 오디오 부분이 오디오 스트림(10)으로부터 제거될 수 있다.

사용자 또는 장치 상호작용의 과정은 동역학적일 수 있는데, 즉 사용자 또는 장치가 선택과 조작을 위한 설정들을 변경할 때마다, 제 1 장치(19, 26)는 그러한 변경된 값들을 다시 인코딩된 오디오 데이터 스트림(10)의 메타=데이터(4) 부분에 기록한다.

제 2 장치(28, 33)가 부가적으로 자동화 과정(예를 들면, 오디오 장면을 청취 상황에 적용하기 위하여) 또는 부가적인 상호작용 인터페이스 때문에, 메타-데이터(4)를 조각하는 것이 또한 가능하다. 이러한 경우에, 제 2 장치(28, 33)는 조작된 값들을 다시 인코딩된 오디오 데이터 스트림(10) 내에 기록할 수 있으며, 예를 들면 제 1 장치(19, 26)에 의해 기록된 값들을 오버라이팅(overwrite)할 수 있다.

다시 도 6을 참조하면, 본 발명을 수행하는 또 다른 방법이 이른바 하이브리드 사용 경우(hybrid use case)에서의 예에 의해 설명된다.

선택된 선택적 오디오 오브젝트들(17)의 인코딩된 오디오 데이터(3)는 주 오디오 데이터 스트림(15)의 일부분이 아닐 수 있으나, 다른 전송 채널들을 사용하여 전달될 수 있다. 예를 들면, 주 오디오 데이터 스트림(15)은 브로드캐스트 채널 상에 전달되며, 선택적 오디오 오브젝트(17)의 인코딩된 오디오 데이터(3)는 IP 연결(37)에 대한 요구에 따라서 전달된다.

모든 오브젝트를 위한 완전한 메타-데이터(4)는 상호작용 및 오브젝트 선택을 위한 모든 정보가 제 1 장치(19) 내에서 이용 가능하도록 주 오디오 데이터 스트림(15) 내에 포함된다. 따라서, 상호작용 제어 데이터(8)의 스트림(10)으로의 상호작용 및 저장의 과정은 위에 설명된 경우와 동일하다.

만일 사용자가 오브젝트(1267)를 선택하고 인코딩된 오디오 데이터(3)가 주 오디오 데이터 스트림(15)의 일부분이 아니면, 제 1 장치(19)는 주 오디오 이터 스트림(15)과 상이한 데이터 연결, 예를 들면 브로드캐스트 스트림 또는 IP 연결(37) 내의 상이한 서브-스트림(36) 상에서 이러한 오브젝트(17)의 인코딩된 오디오 데이터(3)를 수신할 수 있다.

그 다음 단계에서, 제 1 장치(19)는 선택된 오브젝트(17)의 인코딩된 오디오 데이터(3)를 제 2 장치(33)로의 또 다른 전달을 위한 완전한 오디오 데이터 스트림(10)응 야기하는 주 오디오 스트림(15) 내로 병합한다.

게다가, MPEG-H 컴파트먼트 비트스트림(compartment bitstream) 내에 내장된 상호작용 데이터(8)를 전송하기 위한 가능성이 제안된다.

도 9에서 알 수 있는 것과 같이, 고급 멀티미디어 시스템은 흔히 하나의 단일 장치 내에 원하는 모든 기능을 통합하지 않으며, 오히려 예를 들면, 셋-톱 박스들(28), TV-셋(27) 또는 AVR-리시버(28)와 같은 특별한 장치 내에서 상이한 기능적 성분들을 구현한다. 이러한 장치들은 HDMI와 같은 표준화된 인터페이스들을 통하여 통신한다.

그러나, 적어도 오디오 데이터 프로세서 및 디코더가 하나의 단일 장치 내에 통합되는 것이 또한 가능하다. 동일한 (하드웨어) 장치 내의 디코더와 함께 통합되거나 또는 구현되는, 오디오 데이터 프로세서가 제공될 수 있다. 예를 들면, 오디오 데이터 프로세서 및 디코더는 TV, 셋-톱 박스, A/V 리시버등 내에 함께 제공될 수 있다. 오디오 데이터 프로세서 및 디코더는 인터넷 데이터 버스 구조들을 통하 여 통신할 수 있다. 그러한 구성은 특히 시스템-온-칩(SoC) 솔루션들을 포함하는 TV-장치들에서 바람직할 수 있다.

따라서, 또는 대안으로서, 오디오 데이터 프로세서는 ㄷ 두개별 장치를 위하여 위에 설명된 경우와 유사한 동일한 장치 내의 독립 및 개별 기능적 성분으로서 구현될 수 있으며, 한 가지 차이점은 출력 인터페이스가 예를 들면 내부 데이터 버스를 사용하여, 장치 내부의 연결 상에 오디오 데이터 프로세서의 출력을 실행하는 것이다.

MPEG-H 콘텐츠 재생을 위한 한 가지 사용 경우는 적합한 전송 채널을 선택하고 원하는 코딩된 에센스를 포함하는 관련 요소 스트림들을 추출하는, 텔레비전 프로그램이 셋-톱 박스(STB, 26)와 같은 제 1 장치(19)에 의해 수신되는 경우이다. 상호작용, 즉 오디오 요소 선택 및 상호작용/조작을 위한 사용자 제어가 또한 일반적으로 여기서 구현된다.

MPEG-H 디코더(31)는 STB(32) 내에 위치되지 않을 수 있으며, 대신에 오디오/비디오-리시버(AVR, 28) 내에 위치될 수 있다. 이러한 사용 경우가 도 9에 도시된다.

이러한 경우에, 추출된 스트림들은 재생을 위하여 AVR(28)에 공급되는 것이 필요하다; 이러한 두 개의 장치(26, 28) 사이의 전송은 디코딩된/분해된 표현(오디오를 갖는 PCM)의 전송에 의해 달성되거나, 혹은 특히 만일 대역폭 제한들이 사용되는 상호작용 라인 상에 적용되면, 인코딩된 표현 내에 달성될 수 있다.

AVR(28)은 그리고 나서 시스템을 설정하고 정상 작동 시간들에서 "슬레이브 모드"에서 작동할 때 일반적으로 사용자에 의해 단 한 번만 액세스되는 구성 인터페이스를 제공한다.

상호작용이 STB(장치 #1, 26)에서 발생하고 디코딩과 렌더링이 AVR(장치 #2)에서 구현되기 때문에, STB(28)로부터 AVR(28)로 사용자 상호작용 정보를 보낼 수 있는 것은 당연하다.

설명된 사용 경우를 달성하고 설명된 한계들을 극복하기 위하여, 도 8에서 알 수 있는 것과 같이, 상호작용 정보 데이터(8)를 인코딩된 오디오 데이터 스트림(10) 내로 내장하는 것이 제안된다.

제 1 장치(19)는 도입 오디오 데이터 스트림(15)의 mpeg3daConfig()로부터 또는 MPEG-2 TS 기술자들과 같은 대역외 시그널링을 통하여 메타-데이터 정보(4)를 판독한다. 그리고 나서 이는 오디오 요소 메타데이터(4)를 파싱하고 메터데이터(4)의 일부분인 오브젝트 조작에 대한 제한들을 포함하는, 상호작용 인터페이스(6) 내의 오브젝트들에 관한 정보를 제공한다. 상호작용 인터페이스(6)로부터 사용자는 오디오 프리젠테이션을 이러한 개인 선호도에 적응시키도록 선택하고 조작할 수 있다. "사용자 상호작용 데이터"는 오브젝트 선택 및 조작을 기술한다.

그 다음 단계에서, 제 1 장치(19)는 새로운 MHASPacketType을 사용하여 이러한 데이터를 MHAS 오디오 데이터 스트림(32)에 기록한다. 제 1 장치(19)의 출력은 다시 유효한 인코딩된 오디오 스트림(10, 32)이다, mpeg3daConfig() 내의 원래 메타데이터(4) 및 인코딩된 오디오 신호 데이터(3)는 변형되지 않는다.

이러한 MHASPacketType의 패킷의 존재는 제 2 장치(28, 33)가 (사용자) 상호작용이 발생하였다는 것을 식별하는 것을 가능하게 한다. 원래 메타데이터(4)는 제 2 장치(10, 33)가 콘텐츠 생성기에 의해 의도되는 것과 같이 디폴트 값들에 관한 모든 정보를 획득하는 것을 허용하도록 스트림(4) 내에 남아있다.

사용자에 의해 선택되지 않은 오디오 요소들은 메타-데이터(4) 내에 불능으로서 표시되거나 또는 대안으로서 오브젝트들의 인코딩된 오디오 부분(3)이 오디오 스트림(10)으로부터 제거된다.

상호작용의 과정, 즉 장치 또는 사용자 상호작용은 동역학적일 수 있는데, 즉 사용자 또는 장치가 선택과 조작을 위한 설정들을ㅇ 변경할 때마다 제 1 자치(19, 26)는 그러한 변경된 값들을 다시 인코딩된 오디오 데이터 스트림(10)의 명시된 부분에 기록한다.

MHAS-확장

직렬 인터페이스들에 대한 MPEG-H 오디오의 전송은 MHAS 전송 구문(N14459(ISO/IEC 23008-3 위원회안 텍스트[1]의 섹션 13 참조)에 의해 정의된다. 이러한 구문은 패킷화된 방식으로 정의된다. 따라서, 사용자 상호작용 데이터의 전송을 달성하기 위하여, 단지 하나의 또 다른 패킷 형태만이 새로운 제어 정보를 위하여 할당될 필요가 있다.

테이블 1 - HMASPacketPatload()의 구문

테이블 2 - HMASPacketType의 값

PACTYP_USERINTERACTION

MHASPaxketType PACTYP_USERINTERACTION은 요소 상호작용 데이터를 디코더에 공급하도록 사용될 수 있다.

이러한 패킷 형태를 위하여, MHASPacketLabel은 (사용자) 상호작용 데이터(8)가 언급하는 MHASPacketType PACTYP_MPEGH2DACFG의 패킷과 동일한 값을 갖는다.

구문

사용자 상호작용을 위한 인터페이스로부터 구문 요소 mpeg3daElementInteraction()([2] 참조)는 비트스트림(10) 내에 내장된 (사용자) 상호작용 데이터(8)의 전달을 위하여 재-사용된다.

참고문헌들

[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"

[2] FhG, "Normative Interface for User Interaction", Input to the Meeting of AHG on 3D Audio, DRC and Audio Maintenance, June 2-3, 2014, Paris, France

게다가, 사용자 상호작용을 위한 규범적 인터페이스(normative interface)를 위하여 가능한 구문이 제안된다.

렌더링 제어를 위한 인터페이스로부터 상호작용 제어를 위한 인터페이스를 추출하는 것이 제안된다. mpeg3daAudioRendering() 구문 요소는 그리고 나서 렌더링 파라미터들을 정의하고 새롭게 정의된 mpeg3daElementInteraction() 구문 요소는 (사용자) 상호작용을 위하여 필요한 정보를 포함한다.

mpeg3daElementInteraction() 구문 요소의 정의

mpeg3daElementInteraction() 구문 요소는 어떠한 가능한 (사용자) 상호작용을 위한 인터페이스를 제공한다. 두 가지 상호작용 모드가 정의된다.

첫 번째 모드는 오디오 장면 내에 존재하는 각각의 요소 그룹을 위하여 상호작용이 시그널링될 수 있는, 고급 상호작용 모드이다. 이러한 모드는 사용자가 어떠한 그룹이 재생하고 그것들 모두와 상호작용하는지를(주어진 범위들과 제한들 내에서) 자유롭게 선택하는 것을(스위치 그룹 정의들의 제한들 내에서) 가능하게 한다.

두 번째 모드는 사용자가 프리셋으로서 정의된 GroupPresets(mae_AudioSceneInfo() 구문 요소로부터, [1]의 14.2 참조) 중 어느 하나를 선택할 수 있는 기본 상호작용 모드이다. 선택된 GroupPresets의 조건들 내에서 참조되는 온-오프 상태가 그리고 나서 정의되고 사용자에 의해 변경될 수 있다. 사용자는 단지 나머지 그룹들의 온-오프 상태 및 장의된 허용량과 범위들에 따른 모든 그룹의 위치와 이득만을 변경할 수 있다.

4가지 상이한 요소 변형들이 구별된다:

- 온/ 오프 상호작용: 요소들의 그룹이 온 또는 오프로 스위치된다(편집 유의사항: 이전에 "오브젝트 변화"[4]로 불리는)

- 위치 상호작용: 요소들의 그룹의 위치들이 방위각, 고도 및 거리로 변경된다(편집 유의사항: 이전에 "위치 변화"[4]로 불리는)

- 이득 상호작용: 요소들의 그룹의 레벨/이득이 변경된다(편집 유의사항: 이전에 "이득 변화"[4]로 불리는)

- WIRE 상호작용: WIRE 출력은 연결된 확성기들에 더하여 임의 출력이다. 그룹의 요소들의 오디오 콘텐츠는 와이어 출력, 예를 들면 손상된 또는 부가적인 언어 트랙의 청취를 위한 콘텐츠로 라우팅된다(routed).

모든 변형은 요소 레벨의 그룹 상에 정의되는데, 그 이유는 그룹들이 단지 공동으로 조작되어야만 하는 관련 요소들을 모으기 때문이다.

예를 들면 어떠한 장치에 상호작용이 발생하였는지를 시그널링하기 위한 서명이 도입된다.

테이블 3a mpeg3daElementInteraction()의 구문

ei_InteractionSignatureDataLength 이러한 필드는 바이트로 아래의

상호 작용 서명의 길이를 정의

한다.

e i_InteractionSignatureDataType 이러한 필드는 서명의 형태를 정의한다. 아래의 값들이 가능

하다.

mpeg3daElementInteraction()의 또 다른 실시 예가 테이블 4b에 도시된다.

테이블 3b mpeg3daElementInteraction()의 구문

테이블 4a ei_InteractionSignatureDataType의 값

ei _ InteractionSignatureData 이러한 필드는 상호작용 데이터의 발

신자 originator)를 정의하는 서명을

포함한다.

ei_InteractionSignaturweDataType의 또 다른 실시 예가 테이블 4b에 도시된다.

테이블 4b interactionSignaturweDataType의 값

신자 originator)를 정의하는 서명을

포함한다.

hasLocalZoomAreaSize 로컬 줌 영역 크기에 대한 정보가 이

용 가능한지를 정의하는 플래그. 만일

이러한 플래그가 이용 가능하면, 주

밍(ZOOMING)을 위한 오브젝트 재-메핑

이 적용된다.

테이블 5 ElementInteractionData()의 구문

ei _ interactionMode 고급 상호작용 형태 또는 기본 상호작용 형

태가 선택되는지를 정의하는 플래그

ei _ numGroups 이러한 필드는 오디오 장면 내의 그룹들의

수를 포함한다

ei _ groupPresetID 이러한 필드는 오디오 장면 내에서 정의되는

groupPresetID를 포함한다. 이러한 ID는 사

용자의 프리셋 선택을 반영한다.

테이블 6a ei_GroupInteractivityStatus()의 구문

ei _ groupID 상호작용이 기술되는 현재 그룹을 위한

GroupID

ei _ routeToWIRE 이러한 필드는 그룹의 오디오 콘텐츠가 WIRE

출력에 라우팅되어야만 하는지를 정의한다.

ei _ routeToWoreID 그룹이 라우팅되어야만 하는 WIRE 출력의 ID

ei_onOff 현재 그룹의 온-오프 상태를 정

의한다. 기본 상호작용 모드(GroupPresets

상의 상호작용)이 선택된 경우에, 이러한 값

은 만일 이러한 그룹이 ei_groupPresetID

를 갖는 선택된 GroupPreset의 조건들의 일

부분이면 ei_groupID 를 갖는 그룹의 정의된

온-오프 상태와 동일하여야만 한다. 기본 상

호작용 모드를 위하여 여기서 상이한 온-오프

상태를 시그널링하는 것은 허용되지 않는다.

선택된 GroupPreset의 조건들의 일부분이 아

닌 모든 그룹의 온-오프 상태는 임의로 시그

널링될 수 있다.

ei _ cjangePositiom 이러한 플래그는 그룹 요소들의 위치가 변경

되었는지를 정의한다.

ei _ azOffset 오프셋으로서 방위각의 변화가 주어진다. 이

러한 필드는 AzOffset=180^o및 AzOffset=180^o

사이의 값들을 얻을 수 있다.

AzOffset = 180^o:

AzOffset = 1.5·( ei _ azOffset - 128)

AzOffset = min(max( AzOffset , -180), 180);

ei _ eiOffset 오프셋으로서 방위각의 변화가 주어진다. 이

러한 필드는 ElOffset=90^o및 ElOffset=90^o사

이의 값들을 얻을 수 있다.

ElOffset=90^o:

ElOffset = 3·( ei _ ElOffset - 32)

ElOffset = min(max( ElOffset , -90), 90);

ei _ distFact 곱셈 인자로서 거리 상호작용이 주어진다.

필드는 0.00025 및 8 사이의 DistFactor를

야기하는 0 내지 15 사이의 값들을 얻는다:

DistFactor = 2⁽⁽ ^ei ^_ ^distFactor ^-6)-4)

DistFactor = min(max(DistFactor,

0.00025), 8);

ei _ changeGain 이러한 플래그는 그룹 요소들의 이득/레벨이

변경되었는지를 정의한다.

ei _ gain 이러한 필드는 현재 그룹의 구성원들의 부가

적인 이득을 정의한다. 필드는 1 dB 단계에

서 Gain = -63 dB 및 Gain = 31 dB 사이의 값들을 나타내는 0 및 127 사이의 값들을 얻

을 수 있으며, du기서 Gain[dB] = ei_gain -

64 Gain[dB] = min(max(Gain, -63), 31);

만일 ei_gain이 0으로설정되면, 이들은 - 무

한대 dB로 설정되어야만 한다.

테이블 6b에 도시된 ei_GroupInteractivityStatus()의 또 다른 실시 예:

테이블 6b ei_GroupInteractivityStatus()의 구문

상호작용 데이터는 메타데이터 오디오 요소 필드들에 따라 정의된다([1]의 14.2 참조). 메타데이터 오디오 요소 정의에서, 이득 상호작용을 위한 상호작용 범위는 최소 및 최대 오프셋 값들(여기서는 방위각을 위한 1.5^o 및 고도를 위한 3^o를 갖는)로서 주어지고 거리를 위한 범위들은 곱셈 인자들로서 주어진다. 따라서, 인터페이스는 유사한 방법으로 정의된다.

사용자 상호작용을 위하여, 모든 요소 그룹을 위한 모든 가능한 변화(온/오프, 이득, 위치, WIRE)는 각각의 상호작용 형태 및 각각의 그룹 또는 요소를 위한 구문 요소의 한 번의 반복을 사용하는 대신에 하나의 ElementInteraction() 구문 요소 내부에 시그널링된다.

WIRE 출력은 또한 스위치 오프되는 그룹들을 위하여 정의되는데, 그 이유는 그때서만 대안의 언어 트랙들을 WIRE 출력에 라우팅하는 것이 가능하기 때문이다. 가능한 위반 스위치 그룹 논리는 디코더 내에서 처리되어야만 한다.

이전에 [4]에서 제인된 콘텐츠 형태(채널, 오브젝트, HOA)는 여기서는 제거된다. 이는 이미 groupID에 의해 명확하게 알려지는데 그 이유는 요소들의 각각의 그룹이 신호 콘텐츠 형태를 정의하는 signalGroupType(채널들 오브젝트들, SAOC, HOA)을 가지며 구문 요소 Signal3d() 내에 시그널링되기 때문이다.

GroupPresets을 통한 기본 상호작용

만일 기본 상호작용 모드가 설정되면, 사용자는 정의된 GroupPresets 중 하나를 선택할 수 있다(w14464[7]에서의 후보 기술로서 제안되는, mae_AudioSceneInfo() groupCollection 수문 요소로부터).

선택된 프리셋으로부터의 조건들은 참조된 그룹들의 온-오프 상태를 정의한다. 사용자는 이러한 그룹들을 위한 온-오프 상태를 변형할 수 있어야만 한다.

구문 요소 ei-GroupInteractivityStatus() 내의 상응하는 필드 ei_onOff는 선택된 groupPreset의 조건들에서 참조되는 모든 그룹을 위하여 선택된 groupPreset 내의 조건을 반영하여야만 한다.

다른 모든 그룹의 온-오프 상태는 사용자에 의해 선택된다.

결론

기여는 사용자 상호작용을 위하여 인터페이스를 위한 정의를 제안한다. 두 가지 상이한 상호작용 모드(기본 및 고급)를 허용하는 인터페이스 정의가 제공되며, 재안된 인터페이스를 CD에 적응하는 것이 제안된다.

참고문헌들

[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"

[2] FhG, "Rendering Interfaces to MPEG-H and Unification of Loudspeaker Signaling", Input to the Meeting of AHG on 3D Audio, DRC and Audio Maintenance, June 2-3, 2014, Paris, France

[3] ISO/IEC JTC1/SC29/WG11 N14463, "Normative Interface for Binaural Data", April 2014, Valencia, Spain

[4] ISO/IEC JTC1/SC29/WG11 M33134, "3D Audio Decoder Interfaces", April 2014, Valencia, Spain (Input from Philips)

[5] ISO/IEC JTC1/SC29/WG11 M31427, "Thoughts on binaural parameterization of MPEG codecs", October 2013, Geneva, Switzerland (Input from Orange)

[6] ISO/IEC JTC1/SC29/WG11 M30249, "BRIR interface format: update and implementation", July 2013, Vienna, Austria (Input from Philips)

[7] ISO/IEC JTC1/SC29/WG11 N14464 "Candidate Technologies for 3D Audio"

게다가, ISO/IEC 23008-3 CD 텍스트[1]의 섹션 13은 MPEG-H 3D 플레이로드(playpoad)들을 (실-시간) 스트림들 내에 캡슐화하도록 사용되려는 MHAS 구문을 정의한다. 이러한 문서로 MPEG-2 전송 스트림 이외의 다른 전송 시스템들에서의 MHAS의 신뢰할 만한 사용을 가능하게 하는 부가적인 능력들이 제안된다.

충전 데이터

특정 전송 채널들은 단지 일정한 즉각적인 비트레이트에서만 작동될 수 있다. 이를 달성하기 위하여, 특정 주어진 비트레이트까지 MHAS 스트림을 충전할 수 있는 충전 데이터 형태가 제안된다.

CRC

MPEG-2 전송 스트림 계층[2]은 캡슐화된 MHAS 구문 스트림을 보호하는데 주의를 기울인다. 따라서 전송에서의 데이터 손실 또는 데이터 손상(data corruption)이 식별될 수 있다.

다른 한편으로, 공통 직렬 인터페이스들(예를 들면, AES/EBU, S/PDIF, [3]. [4]. [5])은 어더한 충분한 오류 보호도 제공하지 않는다. 만일 MHAS가 그러한 인터페이스들 상에 사용되면 오류 검출을 가능하게 하기 위하여 선택적 CRC 패킷 형태가 제안된다.

기술자 캡슐화

MHAS 스트림들은 MPEG-2 전송 스트림으로 또는 MPEG-2 전송 스트림으로부터 인코딩된 오디오를 전달하도록 사용된다. 부가적인 MHAS 패킷 형태로 관련 기술자 정보를 전달하는 것이 제안된다.

테이블 7 - MHASPacketPayload()의 구문

테이블 8a - MHASPacketType의 값

MHASPacketType의 또 다른 실시 예가 테이블 8b에 도시된다:

테이블 8b - MHASPacketType의 값

mhasParity16Data 다항식을 갖는 디코더 내의 16개의 레지스터

의 제로 출력을 산출하는 CRC 값을 포함하는

16-비트 필드:

x¹⁵+x¹⁵+x⁵+1

및 OxFFFF의 시프트 레지스터의 초기 상태

mhasParity32Data 다항식을 갖는 디코더 내의 32개의 레지스터

의 제로 출력을 산출하는 CRC

값을 포함하는 32-비트 필드:

x³²+x²⁶+x²³+x²²+x¹²+x¹¹+x¹⁰+x⁸+x⁷+x⁵+x⁴+x³+x²+x¹

및 OxFFFFFFFF의 시프트 레지스터의 초기 상

태

mhas _Fill_data_byte 8-비트 데이터 요소들, 어떠한 제한도

적용되지 않는다.

임의 액세스/중간 플레이아웃 마커 ( playout marker)

패킷 페이로드의 첫 번째 marker_byte가 "0x02"일 때, 형태 PACTYP_MPEG3DAFRAME의 다음의 패킷이 주어진 섹션 5.5.5 "오디오 프리-롤(Audio Pre-Roll)"의 규칙들 뒤에 인코딩된다.

프로그램 경계선 마커

첫 번째 marker_byte가 "0x03"일 때, 프로그램 경계선은 시간 및 새로운 프로그램에 속하는 아래의 모든 패킷 내의 이러한 지점에서 발생한다.

PACTYP _ CRC16 및 PACTYP _ CRC32

MHASPacketType PACTYP_CRC16 및 PACTYP_CRC32는 덩일한 값으로 설정된 MHASPacjetLabel을 갖는 선행 MHAS 패킷 내의 오류들의 검출을 위하여 사용될 수 있다. 그것은 그것의 CRC 값이 언급하는 MHAS 패킷을 따라야만 한다. 이는 MHAS 스트림이 오류 발생이 쉬운 채널에 대하여 전달될 때 유익할 수 있다.

오류 검출 방법은 각각, mhasParity16Data 또는 mhasParity32Data를 위하여 정의되는 것과 같이 발생기 다항식 및 관련 시프트 레지스터 상태들 중 하나를 사용한다.

CRC-체크 내로 포함되는 비트들은 각각, mhasParity16Data 또는 mhasParity32Data 뒤의 관련 MHAS 패킷을 위한 완전한 MHASPacketPayload()이다.

PACTYP _ FILLDATA

MHASPacetType PACTYP_FILLDATA는 즉각적인 비트-레이트를 조정하도록 충전 데이터를 추가하기 위한 가능성을 제공한다. 이는 일정 비율 전송 채널을 사용하는 특정 실-시간 적용들에서 바람직할 수 있다.

이러한 형태의 패킷들이 특정 페이로드 데이터와 관련되지 않기 때문에, MHASPacjetLabel은 2로 설정된다.

디코더가 형태 PACTYP_FILLDATA의 패킷들 내에 전송되는 데이터를 무시하는 것이 예상된다. 또한, MHAS 스트림들을 처리하는 중간 툴들은 스트림으로부터 그러한 패킷들을 제거하도록 허용된다.

MHASPacketLength를 0으로 설정하는 것이 허용된다. 이는 2 바이트의 최소 패킷 크기를 산출한다.

PACTYP_DESCRIPTOR

FAC_TYP_DESCRIPTOR는 MHAS ymxmfla들 내로 MPEG-21 TS/PS 기술자들을 내장하도록 사용될 수 있다. mjas_data_byte로서 전달되는 데이터는 ISO/IEC 13818-1 내의 descriptor()를 위하여 정의된 것과 동일한 구문 및 시멘틱(semantic)들을 갖는다.

이러환 패킷 형태 및 TS)program_map_section()(ISO/IEC 13818-1 참조) 내의 제 1 기술자루프 내에 전송되는 기술자들을 위하여, MHASPaxketLabel은 0으로 설정된다. 이러한 패킷 형태 및 하나의 요소 스트림(즉, TS_program_map_section() 내의 제 2 기술자 루프)에 할당되는 기술자들을 위하여, HASPaxketLabel은 관련 요소 스트림으로부터FACTYP_CONFIG와 동일한 값으로 설정된다.

참고문헌들

1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"

[2] ISO/IEC 13818-1:2013, Information technology - Generic Coding of moving pictures and associated audio information: Systems

[3] IEC　60958-3: Digital audio interface - Part 3: Consumer applications"

[4] IEC　61937-11, Digital audio - Interface for non-linear PCM encoded audio bitstreams applying IEC 60958 - Part 11: MPEG-4 AAC and its extensions in LATM/LOAS"

[5] SMPTE　2041: Format for Non-PCM Audio and Data in AES-3 - MPEG-4 AAC and HE AAC Compressed Digital Audio in ADTS and LATM/LOAS Wrappers

블록들이 실제 또는 논리 하드웨어 성분들을 표현하는 장치의 맥락에서 본 발명이 설명되었으나, 본 발명은 또한 컴퓨터로 구현되는 방법에 의해 구현될 수 있다. 후자의 경우에, 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 나타낸다는 것은 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 블록 아이템 혹은 상응하는 장치의 특징을 나타낸다. 일부 또는 모든 방법 단계는 예를 들면, 마이크로프로세서, 프로그램가능 컴퓨터 또는 전자 회로 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수 있다. 일부 실시 예들에서, 일부 하나 또는 그 이상의 가장 중요한 방법 단계는 그러한 장치에 의해 실행될 수 있다.

삭제

특정 구현 요구사항들에 따라, 본 발명의 실시 예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들면, 그 안에 저장되는 전자적으로 판독 가능한 제어 신호들을 갖는, 플로피 디스크, DVD, 블루-레이, CD, RON, PROM, 및 EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있으며, 이는 각각의 방법이 실행되는 것과 같이 프로그램가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 따라서, 디지털 저장 매체는 컴퓨터로 판독 가능할 수 있다.

삭제

일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.

다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.

바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는 데이터 저장 매체, 또는 컴퓨터 판독가능 매체와 같은, 비-전이형 저장 매체이다. 디지털 저장 매체 또는 기록 매체는 일반적으로 유형(tangible) 및/또는 비-일시적이다.

본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.

또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.

또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 수신기로 전송하도록(예를 들면, 전자적으로 또는 광학적으로) 구성되는 장치 또는 시스템을 포함한다. 수신기는 예를 들면, 컴퓨터, 이동 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들면, 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함한다.

일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모두를 실행하기 위하여 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.

위에 설명된 실시 예들은 단지 본 발명의 원리들을 위한 설명이다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해할 것이다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용이 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.

1 : 오디오 데이터 프로세서
2 : 리시버 인터페이스
4 : 메타데이터
15 : 인코딩된 입력 스트림
5 : 메타데이터 파서
6 : 상호작용 인터페이스
7 : 상호작용 입력
8 : 상호작용 제어 데이터
9 : 데이터 스트림 발생기
10 : 출력 데이터 스트림
11, 12 : 인코딩된 오디오 오브젝트
13, 14 : 오디오 오브젝트들 위한 메타데이터
3 : 인코딩된 오디오 데이터
15a, 15b : 입력 데이터 스트림
16 : 오디오 데이터
17 : 선택적 오디오 오브젝트
19, 26 : 셋-톱 박스
19 : 제 1 장치
20 : 입력
23 : 출력 인터페이스
24 : 무선 인터페이스
25 : 유선 커넥터
28, 33 : 외부 오디오/비디오 리시버
32 : 유효한 인코딩된 오디오 스트림

Claims

오디오 데이터 프로세서(1)에 있어서,
인코딩된 오디오 데이터(3) 및 상기 인코딩된 오디오 데이터(3)와 관련된 메타데이터(4)를 수신하기 위한 리시버 인터페이스(2);
오디오 데이터 조작 가능성을 결정하도록 상기 메타데이터(4)를 파싱하기 위한 메타데이터 파서(5);
상호작용 입력(7)을 수신하고 상기 상호작용 입력(7)으로부터, 상기 오디오 데이터 조작 가능성과 관련된 상호작용 제어 데이터(8)를 발생시키기 위한 상호작용 인터페이스(6); 및
상기 상호작용 제어 데이터(8)와 상기 인코딩된 오디오 데이터(3) 및 메타데이터(4)를 획득하고 상기 인코딩된 오디오 데이터(3), 상기 메타데이터(4)의 적어도 일부분 및 상기 상호작용 제어 데이터(8)를 포함하는 인코딩된 출력 데이터 스트림(10)을 발생시키기 위한 데이터 스트림 발생기(9);를 포함하고,
상기 데이터 스트림 발생기(9)는 상기 인코딩된 출력 데이터 스트림(10)의 발생을 위하여 상기 인코딩된 오디오 데이터(3)의 디코딩 없이 상기 리시버 인터페이스(2)에 의해 수신되는 상기 인코딩된 오디오 데이터(3) 및 상기 메타데이터(4)를 포함하는 입력 데이터 스트림(15)을 처리하도록 구성되거나, 또는 상기 인코딩된 출력 데이터 스트림(10)의 변화 없이 상기 인코딩된 오디오 데이터(3) 및 상기 메타데이터(4)의 적어도 일부분을 복사하도록 구성되며,
부가적인 데이터 부분으로서 상기 상호작용 제어 데이터(8)를 상기 인코딩된 출력 데이터 스트림(10) 내에 내장하고, 인코딩된 출력 데이터 스트림을 디코딩하기 위해 인코딩된 오디오 데이터, 메타데이터, 및 상호작용 제어 데이터를 포함하는 인코딩된 출력 데이터 스트림을 외부 디코더에 전달하도록 구성되는, 오디오 데이터 프로세서.
제 1항에 있어서, 상기 인코딩된 오디오 데이터(3)는 개별 인코딩된 오디오 오브젝트들(11, 12)을 포함하고, 상기 메타데이터(4)의 적어도 일부분(13, 14)은 상응하는 오디오 오브젝트(11, 12)와 관련되며,
상기 메타데이터 파서(5)는 적어도 오디오 오브젝트(11)를 위하여, 오브젝트 조작 가능성을 결정하도록 상기 인코딩된 오디오 오브젝트들(11, 12)을 위한 상응하는 부분(13, 14)을 파싱하도록 구성되며,
상기 상호작용 인터페이스(6)는 적어도 하나의 인코딩된 오디오 오브젝트(11)를 위하여, 상기 적어도 하나의 인코딩된 오디오 오브젝트(11)와 관련된 상기 상호작용 입력(7)으로부터 상기 상호작용 제어 데이터(8)를 발생시키도록 구성되는, 오디오 데이터 프로세서.
제 1항에 있어서, 상기 상호작용 인터페이스(6)는 상기 메타데이터 파서(5)에 의해 상기 메타데이터(4)로부터 유도되는 상기 오디오 데이터 조작 가능성을 사용자에 제공하고, 상기 사용자로부터, 상기 데이터 조작 가능성의 특정 데이터 조작에 대한 사용자 입력(7)을 검색하도록 구성되는, 오디오 데이터 프로세서.
제 1항에 있어서,
상기 상호작용 인터페이스(6)는 상기 상호작용 제어 데이터(8)가 변경된 메타데이터 값들 또는 상기 메타데이터(4)에 관한 조작의 양에 의해 표현되도록 상기 상호작용 제어 데이터(8)를 발생시키도록 구성되는, 오디오 데이터 프로세서.
제 1항에 있어서,
상기 데이터 스트림 발생기(9)는 상기 출력 데이터 스트림(10) 내에서, 상기 메타데이터(4)와 동일한 포맷으로 상기 상호작용 제어 데이터(8)를 발생시키도록 구성되는, 오디오 데이터 프로세서.
제 1항에 있어서,
상기 데이터 스트림 발생기(9)는 상기 출력 데이터 스트림(10) 내의 식별자를 상기 상호작용 제어 데이터(8)와 연관시키도록 구성되며, 상기 식별자는 상기 메타데이터(4)와 연관된 식별자와 다른, 오디오 데이터 프로세서.
제 1항에 있어서,
상기 데이터 스트림 발생기(9)는 서명 데이터를 상기 상호작용 제어 데이터(8)에 추가하도록 구성되며, 상기 서명 데이터는 오디오 데이터 조작을 실행하거나 또는 상기 상호작용 입력을 제공하는 적용, 장치 또는 사용자에 대한 정보를 나타내는, 오디오 데이터 프로세서.
제 1항에 있어서,
상기 메타데이터 파서(5)는 상기 인코딩된 오디오 데이터(3)에 의해 표현되는 하나 이상의 오디오 오브젝트(11, 12)를 위한 불능화 가능성을 식별하도록 구성되고,
상기 상호작용 인터페이스(6)는 상기 하나 이상의 오브젝트(11, 12)를 위한 불능화정보를 수신하도록 구성되며,
상기 데이터 스트림 발생기(9)는 상기 상호작용 제어 데이터(8) 내에 상기 하나 이상의 오디오 오브젝트(11, 12)를 불능(disabled)으로 표시하도록 구성되는, 오디오 데이터 프로세서.
제 1항에 있어서, 상기 데이터 스트림 발생기(9)는 상기 출력 데이터 스트림(10)을 동역학적으로 발생시키도록 구성되고, 새로운 상호작용 입력(7)에 응답하여, 상기 상호작용 제어 데이터(8)는 상기 새로운 상호작용 입력(7)과 일치하도록 업데이트되며, 상기 데이터 스트림 발생기(9)는 상기 출력 데이터 스트림(10) 내에 상기 업데이트된 상호작용 제어 데이터(8)를 포함하도록 구성되는, 오디오 데이터 프로세서.
제 1항에 있어서, 상기 리시버 인터페이스(2)는 상기 인코딩된 오디오 데이터(3) 및 상기 인코딩된 오디오 데이터(3)와 관련된 메타데이터(4)를 포함하는 주 오디오 데이터 스트림(15)을 수신하고, 부가적으로 선택적 오디오 오브젝트(17)를 포함하는 선택적 오디오 데이터(16)를 수신하도록 구성되는, 오디오 데이터 프로세서.
제 1항에 있어서,
상기 메타데이터 파서(5)는 선택적 오디오 오브젝트(17)를 위한 오디오 조작 가능성을 결정하도록 구성되고,
상기 상호작용 인터페이스(6)는 상기 선택적 오디오 오브젝트(17)를 위한 상호작용 입력(7)을 수신하도록 구성되며,
상기 리시버 인터페이스(2)는 오디오 데이터 제공기(35)로부터 상기 선택적 오디오 오브젝트(17)를 위한 오디오 데이터(16)를 요구하거나 또는 브로드캐스트 스트림(36) 또는 인터넷 프로토콜 연결(37) 내의 상이한 서브스트림으로부터 선택적 오디오 오브젝트(17)를 위한 상기 오디오 데이터(16)를 수신하도록 구성되는, 오디오 데이터 프로세서.
제 1항에 있어서,
상기 데이터 스트림 발생기(9)는 상기 출력 데이터 스트림 내에, 상기 상호작용 제어 데이터(8)의 또 다른 패킷 형태를 할당하도록 구성되고, 상기 또 다른 패킷 형태는 상기 인코딩된 오디오 데이터(3) 및 상기 메타데이터(4)의 패킷 형태들과 상이하거나, 또는
상기 데이터 스트림 발생기(9)는 상기 출력 데이터 스트림(10) 내로, 충전 데이터 패킷 형태로 충전 데이터(18)를 추가하도록 구성되고, 상기 충전 데이터(18)의 양은 상기 오디오 데이터 프로세서의 출력 인터페이스에 의해 결정되는 데이터 비율 요구조건을 기초로 하여 결정되는, 오디오 데이터 프로세서.
오디오 데이터의 디코딩을 위해 제 1 장치(19)로부터 처리되었으나, 여전히 인코딩된 오디오 데이터를 수신하도록 구성되는 제 2 장치(28)로부터 분리되는 개별 제 1 장치(19)로서 구현되는 제 1항의 오디오 데이터 프로세서에 있어서, 상기 리시버 인터페이스(2)는 유선(21) 또는 무선(22) 연결을 통하여 개별 제 1 장치(19)로의 출력을 형성하고, 상기 오디오 데이터 프로세서(1)는 상기 데이터 스트림 발생기(9)에 연결되는 출력 인터페이스(23)를 더 포함하며, 상기 출력 인터페이스(23)는 상기 출력 데이터 스트림(10)을 출력하도록 구성되며, 상기 출력 인터페이스(23)는 상기 장치(19)의 출력을 실행하도록 구성되고 무선 인터페이스(24) 또는 유선 커넥터(25)를 포함하는, 오디오 데이터 프로세서.
오디오 데이터의 처리 방법에 있어서,
인코딩된 오디오 데이터 및 상기 인코딩된 오디오 데이터와 관련된 메타데이터를 수신하는 단계:
오디오 데이터 조작 가능성을 결정하도록 상기 메타데이터를 파싱하는 단계;
상호작용 입력을 수신하고 상기 상호작용 입력으로부터, 상기 오디오 데이터 조작 가능성과 관련된 상호작용 제어 데이터를 발생시키는 단계; 및
상기 상호작용 제어 데이터와 상기 인코딩된 오디오 데이터 및 메타데이터를 획득하고 상기 인코딩된 오디오 데이터, 상기 메타데이터의 적어도 일부분 및 상기 상호작용 제어 데이터를 포함하는 인코딩된 출력 데이터 스트림을 발생시키는 단계;를 포함하고,
입력 데이터 스트림을 처리하는 단계는 상기 인코딩된 출력 데이터 스트림의 발생을 위하여 상기 인코딩된 오디오 데이터의 디코딩 없이 상기 인코딩된 오디오 데이터 및 상기 메타데이터를 포함하는 입력 데이터 스트림을 처리하는 단계, 또는 상기 인코딩된 출력 데이터 스트림의 변화 없이 상기 인코딩된 오디오 데이터 및 상기 메타데이터의 적어도 일부분을 복사하는 단계; 및
부가적인 데이터 부분으로서 상기 상호작용 제어 데이터를 상기 인코딩된 출력 데이터 스트림 내에 내장하고, 인코딩된 출력 데이터 스트림을 디코딩하기 위해 인코딩된 오디오 데이터, 메타데이터, 및 상호작용 제어 데이터를 포함하는 인코딩된 출력 데이터 스트림을 외부 디코더에 전달하는 단계;를 포함하는, 오디오 데이터의 처리 방법.
프로세서 상에서 컴퓨터를 구동할 때, 제 14항의 오디오 데이터의 처리 방법을 실행하기 위한 디지털 기록 매체에 저장된 컴퓨터 프로그램.