KR101376025B1

KR101376025B1 - 미디어 데이터 전송 방법 및 장치

Info

Publication number: KR101376025B1
Application number: KR1020117026950A
Authority: KR
Inventors: 데이비드 더블유. 싱어
Original assignee: 애플 인크.
Priority date: 2009-04-14
Filing date: 2010-04-09
Publication date: 2014-03-19
Also published as: KR20110138408A; WO2010120655A1; EP2420066A1; US20100262628A1; CA2758846A1; US8719309B2; CA2758846C

Abstract

본 발명은 복수의 뷰에 제시를 제공하는 샘플을 포함하는 데이터 스트림에 저장된 판독가능 콘텐츠를 처리하는 방법 및 장치를 제공한다. 일 실시예에서, 제1 스트림이 저장되고 제2 스트림이 제1 스트림으로부터 도출되며, 여기서 제2 스트림은 제1 스트림으로부터 복수의 뷰를 포함하는 콘텐츠 내의 동작 지점에 대한 데이터를 선택하는 데 사용되는 제1 스트림에 대한 참조를 포함한다. 본 발명의 한 측면에 따르면, 제1 스트림으로부터의 데이터를 전송 또는 저장하기 위해, 저장된 제2 스트림에 포함된 참조가 액세스된다.

Description

미디어 데이터 전송 방법 및 장치{METHOD AND APPARATUS FOR MEDIA DATA TRANSMISSION}

관련 출원

출원인은 2009년 4월 14일자로 출원된 동시 계류 중인 선행의 미국 가특허 출원 제61/169,291호를 기초로 우선권을 주장한다.

본 발명은 전송하기 위한 시간 관련 미디어 데이터 시퀀스를 준비하는 방법 및 장치에 관한 것이며, 보다 상세하게는 이러한 미디어 데이터의 패킷화된 전송에 관한 것이다.

시간-기반 미디어를 저장하기 위해 현재 사용되는 여러 상이한 파일 구조(AIFF와 같은 오디오 형식, AVI와 같은 비디오 형식, 및 RealMedia와 같은 스트리밍 형식)가 있다. 이러한 파일 구조가 서로 다른 한가지 이유는 그의 주안점과 적용성이 다르기 때문이다. 이들 형식 중 일부는 충분히 비교적 널리 채택되어 있고, 그의 응용이 넓으며, 얼마간 구현하기 간단하고, 따라서 콘텐츠 전달을 위해서는 물론 교환 형식으로서도 사용될 수 있다. 이들 일반 형식 중 첫번째로 QuickTime 파일 형식이 있다. 이는 시간-기반 데이터를 서비스하는 대부분의 웹 사이트에서, 전문 저작 환경을 비롯한 대부분의 저작 환경에서, 그리고 대부분의 멀티미디어 CDROM 타이틀에서 현재 사용되고 있다.

QuickTime 미디어 계층은 시간-기반 자료(비디오, 오디오 등)에 중점을 두고 있는 일반 멀티미디어 데이터의 효율적인 디스플레이 및 관리를 지원한다. 미디어 계층은 미디어 정보에 대한 저장 및 교환 형식으로서 QuickTime 파일 형식을 사용한다. 이 계층의 구조적 기능이 기존의 구현보다 일반적으로 더 넓고, 이 파일 형식은 기존의 QuickTime 구현에 의해 현재 요구되는 것보다 더 많은 정보를 나타낼 수 있다.

일반적으로 동기화된 미디어의 로컬 랜덤 액세스를 지원하도록 설계된 AVI와 같은 형식과 달리, QuickTime은 시스템이 일반 멀티미디어 제시(presentation)의 데이터, 관계 및 타이밍을 관리할 수 있게 해준다. 상세하게는, QuickTime 파일 형식은 네트워크 패킷의 시간-기반 방출은 물론, 멀티미디어 데이터의 시간-기반 로컬 제시(time-based local presentation)를 처리하는 개념인 일반적인 시간-기반 스트림의 시간적 거동을 표현하는 구조를 가진다.

기존의 QuickTime 파일 형식은 Apple Computer에 의해 QuickTime 사이트인 <http://.www.apple.com/quicktime>에서 찾아볼 수 있는 1996년 5월 파일 형식 규격에 공개적으로 기술되어 있다.

QuickTime 파일 형식의 한 측면은 미디어 데이터의 물리적 구조(디스크 기록에서의 레이아웃)가 파일에 대한 논리적 구조와 독립적이고 그 논리적 구조에 의해 기술된다는 개념이다. 파일이 일련의 "movie" 메타-데이터에 의해 완전히 기술된다. 이 메타-데이터는 실제 미디어 데이터에 관한 선언적, 구조적 및 시간적 정보를 제공한다.

미디어 데이터가 설명 데이터("movie" 메타-데이터)와 동일한 파일에 또는 다른 파일(들)에 있을 수 있다. 하나의 파일에 구조화되어 있는 영화는 흔히 "플랫(flat)"이라고 하고, 자체-포함(self-contained)이다. 비플랫 영화(non-flat movie)는 다른 파일에 있는 미디어 데이터의 일부 또는 전부를 참조하도록 구조화되어 있을 수 있다.

그에 따라, 이 형식은 일반적으로 상이한 응용에서 최적화하기에 적합하도록 되어 있다. 예를 들어, 편집(합성)하는 경우, 편집이 적용되어 미디어가 재정렬될 때 데이터가 재작성될 필요가 없으며, 메타-데이터 파일이 확장되고 시간 매핑 정보가 조정될 수 있다. 편집이 완료될 때, 관련 미디어 데이터 및 메타-데이터가 로컬 또는 네트워크 액세스를 위한 하나의 인터리빙되고 최적화된 파일로 재작성될 수 있다. 구조화된 파일 및 최적화된 파일 둘다가 유효한 QuickTime 파일이고, 둘다가 검사되고, 재생되며, 재작업될 수 있다.

구조화된("비플랫") 파일의 사용은 동일한 기본 미디어 데이터가 임의의 횟수의 제시에서 사용 및 재사용될 수 있게 해준다. 이하에서 알게 될 것인 바와 같이, 이 동일한 이점이 서비스할 때 적용된다.

편집할 때와 서비스할 때 모두, 이것은 또한, 미디어 데이터를 복사하는 일 없이, 다수의 다른 파일이 영화의 일부로서 취급될 수 있게 해준다. 따라서, 편집하는 것 및 서비스하는 것이 Sun Microsystem의 "au" 오디오 형식 또는 AVI 비디오 형식과 같은 파일로부터 직접 행해질 수 있고, 이는 이들 형식의 유용성을 크게 확장시킨다.

QuickTime 파일은 아톰(atom)이라고 하는 일련의 객체로 나누어진다. 각각의 객체는 그의 크기 및 유형을 선언하는 아톰 헤더(atom header)로 시작한다:

크기는, size 및 type 헤더 필드를 포함하여, 바이트 단위로 되어 있다. type 필드는 용이한 문서화 및 식별을 가능하게 해주기 위해 4 문자(보통 인쇄가능 문자임)이다. type 필드 이후에 있는 객체 내의 데이터는 필드, 포함된 객체 시퀀스, 또는 둘다일 수 있다.

따라서, 파일이 단순히 객체 시퀀스이다:

2가지 중요한 최상위-레벨 객체는 미디어-데이터(mdat) 및 메타-데이터(moov)이다.

미디어-데이터 객체(들)는 실제 미디어(예를 들어, 사운드 샘플 시퀀스)를 포함한다. 그의 형식은 파일 형식에 의해 제약되지 않으며, 보통은 객체가 아니다. 그의 형식은, 메타-데이터와 물리적으로 연속하는 어떤 선언에 의해서가 아니라, 메타-데이터에 기술되어 있다. 따라서, 예를 들어, 단지 M-JPEG(motion-JPEG, 모션-JPEG)만으로 이루어진 영화에서, JPEG 프레임은 미디어 데이터에서 어떤 중간의 추가 헤더도 없이 연속하여 저장된다. 미디어 데이터 객체 내의 미디어 데이터는 논리적으로 청크(chunk)로 나누어지지만, 미디어 데이터 내에 명확한 청크 마커(chunk marker)가 없다.

QuickTime 파일이 다른 파일 내의 미디어 데이터를 참조할 때, 이들 '2차적' 파일이 QuickTime 규격에 따라 형식 지정될 필요가 없는데, 그 이유는 이러한 미디어 데이터 파일이 미디어 객체의 내용인 것처럼 형식 지정될 수 있기 때문이다. QuickTime 형식에서 임의의 헤더 또는 기타 정보가 미디어 데이터와 꼭 물리적으로 연속적일 필요는 없기 때문에, 미디어 데이터가 '외부(foreign)' 헤더를 포함하는 파일(예를 들어 UNIX ".au" 파일, 또는 AVI 파일)일 수 있고 QuickTime 메타-데이터가 적절한 선언적 정보를 포함하고 '외부' 파일에 있는 미디어 데이터를 참조할 수 있다. 이러한 방식으로, 상이한 형식으로 된 기존의 자료 본문을, 복사 없이, 업데이트하기 위해 QuickTime 파일 형식이 사용될 수 있다. QuickTime 파일 형식은 확립된 형식이기도 하고, 다른 확립된 형식과 함께 동작하고 그를 포함하며 따라서 그를 제시할 수도 있다.

(예를 들어, 편집 동작에 의해 삭제된) 빈 공간도 역시 객체에 의해 기술될 수 있다. 빈 공간 객체를 포함하는 파일을 판독하는 소프트웨어는 이러한 빈 공간 객체는 물론, 소프트웨어가 이해하지 못하는 임의의 레벨에 있는 객체도 무시해야만 한다. 이것은 거의 모든 레벨에서 새로운 객체를 도입함으로써 파일을 확장하는 것을 가능하게 해준다.

1차 메타-데이터는 영화 객체이다. QuickTime 파일은 그의 용이한 위치 확인을 가능하게 해주기 위해 통상적으로 파일의 시작 또는 끝에 있는 정확히 하나의 영화 객체를 가진다:

영화 헤더는 전체 제시에 관한 기본적인 정보(제작 일자, 전체 시간스케일 등)를 제공한다. 포함된 객체 시퀀스에, 통상적으로 시간적으로 제시되는 데이터를 기술하는 적어도 하나의 트랙이 있다.

트랙 헤더는 트랙에 관한 비교적 기본적인 정보(그의 ID, 시간스케일 등)를 제공한다. 트랙에 포함된 객체는 다른 트랙(예를 들어, 복잡한 합성의 경우) 또는 편집 목록에 대한 참조일 수 있다. 이 포함된 객체 시퀀스에서, 트랙이 재생될 때 제시되는 미디어를 기술하는 미디어 객체가 있을 수 있다.

미디어 객체는 트랙에 의해 요구되는 제시에 관한 선언(예를 들어, 미디어 객체가 샘플링된 오디오, 또는 MIDI, 또는 3D 장면에 대한 배향 정보라는 것)을 포함한다. 트랙의 유형은 그의 핸들러(handler)에 의해 선언된다:

미디어 정보 내에, 마찬가지로 (미디어 데이터를 페치하는) 데이터 핸들러에 대한 핸들러 선언, 및 어느 파일이 연관된 트랙에 대한 미디어 데이터를 포함하는지를 정의하는 데이터 정보 선언이 있다. 이 선언을 사용함으로써, 몇개의 파일에 걸쳐 있는 영화가 제작될 수 있다.

최하위 레벨에서, 트랙의 시간적 측면을 파일에 저장된 데이터에 관련시키는 샘플 테이블이 사용된다.

샘플 설명(sample description)은 미디어에 관한 정보(예를 들어, 비디오에서 사용된 압축 형식)를 포함한다. 시간-샘플(time-to-sample) 테이블은 트랙에서의 시간을 (인덱스에 의해) 그 시간에 디스플레이되어야 하는 샘플에 관련시킨다. 동기 샘플 테이블(sync sample table)은 이들 중 어느 것이 다른 샘플에 의존하지 않는 동기(키) 샘플인지를 선언한다.

샘플-청크(sample-to-chunk) 객체는 주어진 샘플에 대한 미디어 데이터를 어떻게 찾는지와 그의 인덱스가 주어진 경우 그의 설명을 어떻게 찾는지를 선언한다.

샘플 크기(sample size) 테이블은 각각의 샘플의 크기를 나타낸다. 청크 오프셋(chunkoffset) 테이블은 각각의 청크의 시작의 포함 파일(containing file)에 대한 오프셋을 나타낸다.

주어진 시간에 대한 디스플레이할 적절한 데이터를 찾기 위해 상기한 구조를 조사하는 것은 아주 간단하며, 일반적으로 인덱싱 및 가산을 필요로 한다. 동기 테이블을 사용하여, 이전의 동기 샘플로 후퇴하고 '자동' 누적 델타('silently' accumulating delta)를 원하는 시작점으로 롤포워드(roll forward)하는 것도 가능하다.

도 1은 하나의 트랙을 갖는 간단한 영화의 구조를 나타낸 것이다. 유사한 다이어그램이, 다양한 객체의 필드에 대한 상세한 설명과 함께, QuickTime 파일 형식 설명서에서 찾아볼 수 있다. QuickTime 아톰(객체)이 회색 상자 내의 그의 유형 및 상기 설명적 이름과 함께 동 도면에 나타내어져 있다. 이 영화는 하나의 비디오 트랙을 포함하고 있다. 비디오 프레임이 동일한 파일 내에서 하나의 데이터 청크 내에 있다. 주목할 점은, '청크'가 객체가 아니라 단지 논리적 구성체(logical construct)라는 것이다. 청크 내에서 비디오 프레임은 통상적으로 네이티브 형태(native form)로 저장되어 있다. 비디오 프레임 자체 내에 헤더 또는 필드가 필요하지 않다.

도 2는 오디오 및 비디오 트랙 둘다를 갖는 자체-포함 파일(self-contained file)의 다이어그램이다. 간단함을 위해, 동 도면에 보다 적은 수의 아톰이 도시되어 있지만, 트랙으로부터 미디어 데이터로의 포인터가, 물론, 타이밍 정보를 포함하는 보통의 샘플 테이블 선언이다.

QuickTime 파일 형식은 다음과 같은 것을 비롯한 다수의 이점을 가진다:

1) 크기 및 비트 레이트에 대한 확장성. 메타 데이터가 유연성이 있지만, 간결하다. 이것으로 인해 (예를 들어, 인터넷을 통해) 다운로드된 소규모 영화는 물론, 다수의 고성능 편집 시스템에 대한 기초를 제공하는 데 적합하게 된다.

2) 물리적 구조가 논리적 및 시간적 구조와 독립적이다. 이것으로 인해 물리적 구조를 파일이 사용될 용도에 따라 상이한 방식으로 최적화하는 것이 가능하게 된다. 상세하게는, 이는 하나의 파일 형식이 저작 및 편집, 다운로드 또는 CDROM에의 기입, 그리고 스트리밍에 적합하다는 것을 의미한다.

3) 이 파일 형식은, 그 형식이 설계되었을 때 알려져 있지 않았던 많은 유형을 비롯하여, 아주 다양한 코덱 유형 및 트랙 유형을 처리할 수 있는 것으로 판명되었다. 이와 같이 판명된 상위-호환(upwards-compatible) 방식으로 발전할 수 있는 능력은 저장 형식의 성공에 기본적인 것이다.

확장가능하거나 계층화된 코덱이 QuickTime 파일 형식에서 다수의 방식으로 처리될 수 있다. 확장성을 지원하는 스트리밍 프로토콜의 경우, 샘플이 샘플을 전송하기 위해 충족되어야 하는 계층 또는 대역폭 임계값으로 태깅될 수 있다.

일련의 대체물을 형성하는 트랙(예를 들어, 다른 자연어 사운드 트랙)이 단지 하나만이 재생을 위해 선택되도록 태깅될 수 있다. 스트리밍을 위한(예를 들어, 언어 선택을 위한) 대체물을 선택하기 위해 동일한 구조가 사용될 수 있다. QuickTime 파일 형식에서 이 기능에 대해 더 상세히 기술한다.

QuickTime이 영화 또는 트랙을 디스플레이할 때, 적절한 미디어 핸들러가 특정의 시간에 대한 미디어 데이터에 액세스한다. 미디어 핸들러는 요청된 데이터를 검색하기 위해 데이터 스트림을 올바르게 해석해야만 한다. 예를 들어, 비디오 미디어와 관련하여, 미디어 핸들러는 통상적으로 주어진 미디어 시간에 대한 샘플의 위치 및 크기를 찾기 위해 몇개의 아톰을 순회(traverse)한다. 미디어 핸들러는 다음과 같은 것을 수행할 수 있다:

1. 미디어 시간 좌표계에서 시간을 결정한다.

2. 지정된 시간에 대한 데이터를 포함하는 샘플 수를 결정하기 위해 시간-샘플 아톰을 검사한다.

3. 어느 청크가 문제의 샘플을 포함하는지를 발견하기 위해 샘플-청크 아톰을 스캔한다.

4. 청크 오프셋 아톰으로부터 청크에 대한 오프셋을 추출한다.

5. 샘플 크기 아톰을 사용함으로써 청크 내에서의 오프셋 및 샘플의 크기를 구한다.

컴퓨터 네트워크(예를 들어, 인터넷)와 연관되어 있을 수 있는 데이터 통신 매체를 통해 QuickTime 파일 또는 다른 유형의 시간 관련 미디어 데이터 시퀀스를 전송하는 것이 종종 바람직하다. 많은 컴퓨터 네트워크에서, 네트워크로 전송되는 데이터가 일반적으로 패킷 형태로 되어 있어야만 한다. 통상적으로, 시간 관련 미디어 데이터 시퀀스는 네트워크를 통해 전송하는 데 적절한 패킷화된 형식으로 되어 있지 않다. 예를 들어, QuickTime 형식으로 된 미디어 데이터 파일은 패킷화된 형식으로 되어 있지 않다. 따라서, 때때로 스트리밍 데이터라고 하는 데이터를 수집하여 네트워크를 통해 전송하기 위한 패킷으로 만들 필요가 있다.

시간 관련 미디어 데이터 시퀀스를 네트워크를 통해 전송하는 문제를 해결하는 한가지 종래의 방식은 HTTP(Hypertext Transfer Protocol)와 같은 네트워크 또는 전송 프로토콜을 사용하여 네트워크를 통해 미디어 파일을 전송하는 것이다. 따라서, 미디어 파일 자체가 한 컴퓨터 시스템으로부터 네트워크를 통해 다른 컴퓨터 시스템으로 전송된다. 그렇지만, 수신측 컴퓨팅 시스템에 미디어 파일을 유지하는 것을 원하지 않을 수 있다. 즉, 미디어 파일을 수신측 컴퓨터 시스템에서 수신하여 보거나 들을 때, 예를 들어, 수신측 컴퓨터 시스템이 네트워크 컴퓨터이거나 낮은 저장 용량을 갖는 컴퓨터인 경우, 그 수신측 컴퓨터 시스템의 사용자가 파일의 사본을 저장하려고 하지 않을 수 있다.

네트워크를 통해 패킷으로 전송하기 위한 데이터를 어떻게 수집할지의 문제를 해결하는 다른 대안적 방식은 특정의 전송 프로토콜에 대한 파일에 네트워크 프로토콜 데이터 단위를 포함하는 파일을 준비하는 것이다. 어떤 의미에서, 이러한 파일은 특정의 전송 프로토콜에 따라 전송될 때와 본질적으로 동일한 형식으로 저장되는 패킷화된 파일로 간주될 수 있다. 이 동작을 수행하는 것은 일반적으로 파일을 특정의 데이터 전송률 및 특정의 미디어 파일 형식의 특정의 네트워크 프로토콜에 대한 패킷화된 형태로 저장하는 것을 수반한다. 따라서, 특정의 데이터 전송률의 각각의 상이한 전송 프로토콜에 대해, 파일이 본질적으로 그의 패킷화된 형태로 복제될 것이다. 이러한 파일의 고정된 형태는 그의 적용성/호환성을 제한할 수 있고 이러한 파일을 로컬적으로 보는 것을 어렵게 만들 수 있다. 따라서, 이러한 방식은 파일을 여러 상이한 데이터 전송률의 다양한 전송 프로토콜로 제공하려고 시도할 때 저장 요구사항을 크게 증가시킬 수 있다. 게다가, 이 대안의 종래 방식에 따라 발생된 각각의 패킷화된 파일이 일반적으로 특정의 미디어 파일 형식으로 제한되고, 따라서 동일한 미디어 객체(예를 들어, 디지털 영화)에 대한 다른 미디어 파일 형식은 통상적으로 패킷화되어 전송측 컴퓨터 시스템에 저장된다.

시간 관련 미디어 데이터 시퀀스를 어떻게 스트리밍할지의 문제를 해결하는 또다른 방식은 필요할 때 전송 시스템에서 원하는 특정의 전송 프로토콜에 따라 미디어 데이터의 패킷화를 수행하는 것이다. 이 처리는, 많은 경우에, 비교적 상당한 양의 시간을 필요로 하고, 따라서 전송 시스템의 성능을 떨어뜨릴 수 있다.

따라서, 시간 관련 미디어 데이터 시퀀스를 전송하는 개선된 방법 및 장치를 제공하는 것이 바람직하다.

<발명의 개요>

본 발명은 복수의 뷰 중 임의의 뷰로부터 볼 수 있는 제시를 제공하는 샘플을 포함하는 데이터 스트림에 저장된 판독가능 콘텐츠를 처리하는 방법 및 장치를 제공한다. 일 실시예에서, 제1 스트림이 저장되고 제2 스트림이 제1 스트림으로부터 도출되며, 여기서 제2 스트림은 제1 스트림으로부터 복수의 뷰를 포함하는 콘텐츠 내의 동작 지점에 대한 데이터를 선택하는 데 사용되는 제1 스트림에 대한 참조를 포함한다. 본 발명의 한 측면에 따르면, 제1 스트림으로부터의 데이터를 전송 또는 저장하기 위해, 저장된 제2 스트림에 포함된 참조가 액세스된다.

도 1은 종래 기술에서의 하나의 트랙을 갖는 간단한 영화의 구조의 일례를 나타낸 도면.
도 2는 종래 기술의 자체 포함 영화 파일의 일례를 나타낸 도면.
도 3은 본 발명에 따른 방법의 한 일례를 나타낸 플로우차트.
도 4는 본 발명의 힌트 트랙의 일례를 나타낸 도면.
도 5는 본 발명의 힌트 트랙의 다른 일례를 나타낸 도면.
도 6은 본 발명의 일 실시예에 따른, 미디어 데이터가 교환 및/또는 처리될 수 있는 컴퓨터 시스템의 네트워크를 나타낸 도면.
도 7은 본 발명의 일 실시예에 따라 사용될 수 있는 디지털 처리 시스템의 블록도.
도 8은 본 발명의 일 실시예에 따른, 미디어 데이터를 전송하기 위해 힌트를 이용하는 시스템의 블록도.
도 9는 본 발명의 일 실시예에 따른, 미디어 데이터를 전송하기 위해 힌트를 이용하는 시스템의 블록도.
도 10은 본 발명의 일 실시예에 따른, 미디어 데이터 전송을 제공하기 위한 힌트를 발생하는 방법을 나타낸 흐름도.
도 11은 본 발명의 일 실시예에 따른, 힌트에 따라 수신 시스템에 의해 수신되는 미디어 데이터를 처리하는 방법을 나타낸 흐름도.
도 12는 본 발명의 일 실시예에 따른, 발생기와 같은 디지털 처리 시스템에 의해 액세스될 수 있는 머신 판독가능 저장 매체의 일례를 나타낸 도면.
도 13은 본 발명의 일 실시예에 따른, 서버와 같은 디지털 처리 시스템에 의해 액세스될 수 있는 머신 판독가능 저장 매체의 일례를 나타낸 도면.
도 14는 본 발명의 일 실시예에 따른, 수신 시스템 또는 다른 디지털 처리 시스템과 같은 디지털 처리 시스템에 의해 액세스될 수 있는 머신 판독가능 저장 매체의 일례를 나타낸 도면.
도 15는 본 발명의 일 실시예에 따른, 미디어 및 힌트 정보를 저장/전달하는 데이터 저장 및/또는 통신 매체를 나타낸 도면.
도 16a는 MVC(multiview coded) 코딩된 비디오 기본 트랙의 일 실시예를 나타낸 도면.
도 16b는 비디오 뷰를 변화시키는 일 실시예를 나타낸 블록도.
도 16c는 집계기 네트워크 추상화 계층 단위를 이용하는 MVC 코딩된 비디오 기본 트랙의 일 실시예를 나타낸 도면.
도 17a는 MVC 코딩된 기본 트랙으로부터 비디오 스트림을 추출하는 데 사용되는 추출기 트랙의 일 실시예를 나타낸 블록도.
도 17b는 집계기 네트워크 추상화 계층 단위를 포함하는 MVC 코딩된 기본 트랙으로부터 비디오 스트림을 추출하는 데 사용되는 추출기 트랙의 일 실시예를 나타낸 블록도.
도 18은 추출기 트랙을 포함하는 비디오 파일의 일 실시예를 나타낸 블록도.
도 19는 MVC 기본 트랙을 갖는 추출기 트랙을 발생하고 사용하는 시스템의 일 실시예를 나타낸 블록도.
도 20은 MVC 기본 트랙으로부터 MVC 추출기 트랙(들)을 발생하는 방법(2000)의 일 실시예의 플로우차트.
도 21은 대응하는 추출기 트랙을 사용하여 MVC 기본 트랙으로부터 비디오 스트림을 검색하는 방법(2100)의 일 실시예의 플로우차트.
도 22는 원격 클라이언트에 대한 전송 서버에 의해 MVC 기본 트랙으로부터 미디어 스트림을 검색하는 방법(2200)의 일 실시예의 플로우차트.
도 23은 원격 클라이언트가 추출기 트랙을 사용하여 미디어 스트림을 요청하는 경우 원격 클라이언트에 대한 전송 서버에 의해 MVC 기본 트랙으로부터 미디어 스트림을 검색하는 방법(2300)의 일 실시예의 플로우차트.
도 24는 MVC 기본 트랙으로부터 추출된 MVC 특정 콘텐츠를 저장하는 방법(2400)의 일 실시예의 플로우차트.
도 25는 추출기 트랙을 사용하여 MVC 기본 트랙으로부터 비디오를 발생하는 비디오 처리 장치의 블록도.

본 발명은 컴퓨터 네트워크에서와 같이 통신 매체를 통한, 예를 들어, 비디오, 오디오, 비디오 및 오디오 등을 포함할 수 있는 시간 관련 미디어 데이터 시퀀스의 전송, 상세하게는 패킷화된 전송을 가능하게 해주는 방법 및 장치를 제공한다.

본 발명의 일 실시예에서, 디지털 처리 시스템은 전송 프로토콜에 따라 시간 관련 미디어 데이터 시퀀스를 어떻게 전송할지를 나타내는 데이터 집합을 생성한다. 통상적으로, 이 데이터 집합은 디지털 처리 시스템에 결합된 저장 장치에 저장된다. 게다가, 이 데이터 집합은 시간 관련 미디어 데이터 시퀀스와 연관된 시간 관련 데이터 시퀀스이다.

본 발명은 전적으로 컴퓨터 판독가능 매체에 저장된 실행가능 컴퓨터 프로그램 명령어로 구현될 수 있거나, 소프트웨어와 하드웨어의 조합으로, 또는 특정 실시예에서, 전적으로 하드웨어로 구현될 수 있다. 통상적으로, 네트워크에 결합된 서버 컴퓨터 시스템은 힌트 트랙(hint track)이라고 할 수 있는 데이터 집합(set of data)을 생성할 것이고, 서버 컴퓨터 시스템에 결합되어 있는 저장 장치에 이 힌트 트랙을 저장할 것이다. 클라이언트 컴퓨터 시스템이 미디어 데이터 파일의 제시(예를 들어, 보는 것, 또는 듣는 것, 또는 보는 것과 듣는 것)를 요청할 때, 서버 시스템은 클라이언트 컴퓨터 시스템으로 전송하기 위한 미디어 데이터를 어떻게 패킷화할지를 결정하기 위해 힌트 트랙을 사용한다. 본 발명이 일반적으로 시간 관련 미디어 데이터 시퀀스에 적용가능하다는 것과 QuickTime이 본 명세서에서 이 일반적인 적용성의 한 일례로서 나와 있다는 것을 잘 알 것이다. 따라서, 본 발명이 QuickTime으로 꼭 제한되는 것은 아니다.

도 3은 본 발명에 따른 방법의 한 일례를 나타낸 것이다. 도 3에 나타낸 방법(300)은 전송되도록 요망되는 특정 미디어 데이터에 대한 미디어 파일 형식이 결정되는 단계(301)에서 시작한다. 단계(303)에서, 사용되도록 요망되는 특정의 전송 프로토콜 또는 프로토콜들도 역시 결정된다. 그렇지만, 단계(301) 및 단계(303)가, 예를 들어, 동일한 미디어 파일 형식이 항상 동일한 전송 프로토콜을 사용하여 전송되는 경우에 선택적이다.

단계(305)에서, 서버 컴퓨터 시스템과 같은 디지털 처리 시스템은 미디어 파일 내의 시간 관련 미디어 데이터 시퀀스를 패킷화하기 위한 힌트를 생성하고 저장한다. 다른 대안으로서, 한 컴퓨터 시스템이 힌트를 생성하고 이를 서버 컴퓨터 시스템과 같은 다른 시스템에 제공할 수 있고, 이 다른 시스템은 전송 프로세스에서 나중에 사용하기 위해 이 힌트를 저장한다. 패킷화는 단계(303)에서 결정된 원하는 전송 프로토콜에 따라 네트워크 또는 통신 매체를 통해 전송하는 것을 가능하게 해준다. 본 발명의 일 실시예에서, 힌트는 다른 미디어 데이터 트랙을 참조하는 시간 관련 힌트 시퀀스(time related sequence of hints)의 트랙 - 그러나, 일 실시예에서, 다른 미디어 데이터 트랙과 분리되어 있음 - 으로서 저장된다. 본 발명의 일 실시예에서, 힌트 트랙은 힌트 트랙이 참조하는 미디어 데이터와 분리되어 저장될 수 있다. 그에 따라, 힌트 트랙이 힌트 트랙에 의해 참조되는 미디어 데이터를 포함하는 다른 파일과 상이한 파일에 저장될 수 있거나, 힌트 트랙이, 실제 미디어 데이터를 포함하는 데이터 영역과 별도로 분리되어 있는, 미디어 데이터를 포함하는 파일 내의 힌트 영역에 저장될 수 있다. 본 발명의 일 실시예에서, 힌트 트랙 또는 그의 일부분이 서버에 의해 실행가능 명령어로서 해석될 수 있고, 이 실행가능 명령어는 서버로 하여금 시간 관련 데이터 시퀀스 - 통상적으로 시간-기반 미디어 데이터이지만 꼭 그럴 필요는 없음 - 를 패킷화하게 한다. 본 발명의 일 실시예에서, 힌트는 전송측 디지털 처리 시스템에 결합되어 있는 저장 장치에 저장된다.

단계(307)에서, 힌트에 따라 패킷화된 데이터가 서버 컴퓨터 시스템과 같은 전송 시스템으로부터 수신 시스템으로 전송된다. 이 미디어 데이터는 힌트에 따라 미디어 데이터를 패킷화함으로써 전송된다. 본 발명의 한 대안의 실시예에서, 서버 컴퓨터 시스템은 힌트를 사용하지 않고 대안의 패킷화 프로세스에 의해 미디어 데이터를 전송하기로 결정할 수 있다.

단계(309)에서, 수신 시스템은 미디어 데이터에 의해 표현되는 미디어 객체를 제시한다. 통상적으로, 이 제시 - 미디어 객체를 보는 것과 듣는 것, 또는 미디어 객체를 단지 보는 것, 또는 단지 듣는 것일 수 있음 - 는 패킷화된 데이터가 수신 시스템에 수신될 때 수행된다. 패킷화된 데이터는, 본 발명의 일 실시예에서, 수신 시스템에 저장될 수 있지만, 꼭 그럴 필요는 없다. 따라서, 데이터의 제시는 제시가 끝나면 수신 시스템에 어떤 로컬 사본도 없다는 점에서 사용후 삭제(ephemeral)되는 것이다. 다른 실시예에서, 미디어 객체의 제시는, 미디어 객체를 나타내는 미디어 데이터에 대한 힌트를 생성한 후에, 서버 시스템에서 행해질 수 있다. 본 발명의 일 실시예에서, 힌트에 따른 패킷화를 위해 미디어 데이터를 꼭 (재)형식 지정, 복사하는 등을 할 필요는 없다.

단계(311)에서, 수신된 미디어 파일이 수신 시스템에 저장되어 있는 경우, 수신 시스템은 선택적으로 미디어 파일을 재조립할 수 있다. 도 3에 도시된 방법의 다양한 단계가 이상에서 도시하고 기술한 순서와 상이한 순서로 수행될 수 있고 및/또는 단계들 중 일부가 동시에 수행될 수 있다는 것을 잘 알 것이다. 예를 들어, 일 실시예에서, 단계(309) 및 단계(311)는 병렬로 수행된다.

본 발명의 일 실시예에 따른 QuickTime에서의 특정의 구현에 대해 이제부터 기술할 것이다. 본 발명의 일 실시예에서, 파일에 로컬인 곳에서(예를 들어, 서버, 발생기 등에서) 볼 수도 있고 QuickTime 영화 내에 네트워크를 통해 스트리밍될 수도 있는 제시가 제공된다. 일반적으로, 스트리밍 서버(또는 다른 시스템)은 스트리밍할 데이터 단위, 그의 구성 및 타이밍에 관한 정보를 가지고 있어야 한다. 이러한 정보가 통상적으로 시간적이기 때문에, 이 정보가 트랙에 기술되어 있을 수 있다. 서버는, 예를 들어, 제시를 보는 데 사용하게 될 것과 동일한 인덱싱 동작을 사용하여 패킷화를 수행하고 프로토콜 정보를 결정할 수 있다.

서버에 대한 명령어를 포함하는 트랙은 때때로 '힌트' 트랙이라고 하는데, 그 이유는 이러한 트랙이 패킷을 형성하고 전송하는 프로세스에서 서버에 지시하는 데이터 집합을 나타내기 때문이다. QuickTime 파일 형식은 네트워크를 통한 미디어 데이터의 스트리밍은 물론 로컬 재생도 지원한다. 프로토콜 데이터 단위를 전송하는 프로세스는, 시간-기반 데이터를 디스플레이하는 것과 같이, 시간-기반이고, 따라서 시간-기반 형식으로 기술되는 것이 적절하다. 스트리밍을 지원하는 QuickTime 파일 또는 '영화'는 스트리밍할 데이터 단위에 관한 정보를 포함한다. 이 정보는 "힌트" 트랙이라고 하는 파일의 부가의 트랙에 포함되어 있다.

힌트 트랙은 패킷의 형성을 돕는 스트리밍 서버(또는 다른 디지털 처리 시스템)에 대한 명령어를 포함하고 있다. 이 명령어는 서버가 전송할 직접 데이터(immediate data)(예를 들어, 헤더 정보) 또는 미디어 데이터의 참조 세그먼트를 포함할 수 있다. 본 발명의 일 실시예에서, 명령어는 편집 또는 제시 정보가 로컬 재생을 위해 QuickTime 파일에 인코딩되는 것과 동일한 방식으로 QuickTime 파일에 인코딩되어 있다. 편집 또는 제시 정보 대신에, 서버가 특정의 네트워크 전송을 사용하여 스트리밍하기에 적당한 방식으로 미디어 데이터를 패킷화할 수 있게 해주는 정보가 제공될 수 있다.

본 발명의 일 실시예에서, 로컬 재생을 위한 것이든 또는 다수의 상이한 전송 유형을 통해 스트리밍하기 위한 것이든 간에 동일한 미디어 데이터가 힌트를 포함하는 QuickTime 파일에서 사용된다. 상이한 전송 유형에 대한 개별적인 '힌트' 트랙이 동일한 파일에 포함될 수 있고, 미디어 자체의 어떤 부가의 사본도 만들지 않고 미디어가 모든 이러한 전송 유형을 통해 재생될 수 있다. 그에 부가하여, 기존의 미디어는 특정의 전송에 대한 적절한 힌트 트랙의 부가에 의해 스트리밍가능하게 되어 있을 수 있다. 본 발명의 한 측면에 따르면, 미디어 데이터 자체가 개작(recast)되거나 형식 재지정(reformat)될 필요가 없다.

따라서, 힌트 트랙 내의 샘플이 일반적으로 패킷을 형성하는 명령어를 포함하고 있다. 이 명령어는 서버가 전송할 직접 데이터(예를 들어, 헤더 정보) 또는 다른 트랙에 있는 미디어 데이터의 참조 세그먼트(reference segment)를 포함할 수 있다.

본 발명의 일 실시예에서, 다음과 같이 3-레벨 설계가 이용된다:

1) 미디어 데이터가 보통 때와 같이 재생, 편집 등이 행해질 수 있는 일련의 네트워크-독립적인 트랙으로서 표현된다.

2) 서버 힌트 트랙에 대한 공통의 선언 및 기본 구조가 있고, 이 공통의 형식이 프로토콜 독립적(protocol independent)이지만, 어느 프로토콜(들)이 서버 트랙(server track)(들)에 기술되는지의 선언을 포함한다.

3) 전송될 수 있는 각각의 프로토콜에 대한 서버 힌트 트랙의 특정의 설계가 있고, 이들 설계 모두가 동일한 기본 구조를 사용한다. 예를 들어, RTP(인터넷의 경우) 및 MPEG-2 전송(브로드캐스트의 경우)에 대한, 또는 새로운 표준 또는 공급업체-고유 프로토콜에 대한 설계가 있을 수 있다.

본 발명의 일 실시예에서, 힌트 트랙의 지시 하에 서버에 의해 전송되는 얻어진 스트림은 보통의 스트림이고, QuickTime 정보를 조금이라도 꼭 포함할 필요는 없다. 본 발명의 이 실시예는 QuickTime 또는 그의 구조 또는 선언 스타일이 전송 매체(예를 들어, 네트워크 케이블) 상의 데이터에 또는 디코딩 스테이션(decoding station)에 꼭 있을 것을 필요로 하지 않는다. 예를 들어, RTP 하에서 스트리밍되는 H.261 비디오 및 DVI 오디오를 사용하는 파일은 그 결과, 본 발명의 일 실시예에서, 그 코딩을 RTP에 패킹하기 위한 IETF 규격과 완전히 호환되는 패킷 스트림으로 될 수 있다.

본 발명의 일 실시예에서, 제시를 로컬적으로 볼 때, 힌트 트랙이 본질적으로 수신 시스템에 의해 무시되도록, 힌트 트랙이 작성되고 플래깅된다.

일 실시예에서, 예를 들어, 비디오, 오디오 등을 포함할 수 있는 시간 관련 미디어 데이터 시퀀스는 디지털 처리 시스템에 의해 패킷화되고, 이어서 동일한 디지털 처리 시스템 상에서 제시될 수 있다. 게다가, 패킷화가 사용후 삭제되는 것일 수 있으며, 따라서 제시, 저장, 판독 등이 되는 시간 관련 시퀀스가 또한 "즉시(on the fly)" 패킷화된다. 일 실시예에서, 힌트는 복사, 형식 지정 등이 되지 않은 미디어 데이터를 참조할 수 있고, 예를 들어, 힌트가 참조하는 미디어 데이터가 원래의 형식으로 판독-전용 메모리 등에 저장될 수 있다.

일 실시예에서, 패킷화를 제공하는 동일한 힌팅 루틴(hinting routine)이 또한 패킷화가 수행될 때 미디어를 제시한다. 본 발명의 대안의 실시예에서, 시간 관련 미디어 데이터의 패킷화된 파일이 힌트 트랙에 따라 발생되고, 예를 들어, 나중에 전송하기 위해 저장될 수 있다.

도 4는 본 발명의 일 실시예에 따른, 미디어 데이터를 전송하기 위해 힌트 트랙을 이용하는 것을 나타낸 것이다. 도 4에서, 미디어 트랙(403)에 대해 힌트 트랙(401)이 도시되어 있다. 힌트 트랙 샘플(405)과 같은 각각의 힌트 트랙 샘플 - RTP 패킷을 어떻게 형성할지를 기술하고 있음 - 은 헤더를 포함할 수 있고, 연관된 미디어 트랙 - 이 경우에, 비디오 트랙(403) - 으로부터의 어떤 데이터를 참조할 수 있다. 도 4에 도시된 실시예에서, 연관된 미디어 파일이 비교적 쉽게 판독될 수 있도록, 미디어 데이터(비디오 프레임) 및 RTP 힌트가 인터리빙되어 있다. 이 일례에서, 각각의 프레임이 하나의 RTP 패킷에 들어가는 것으로 도시되어 있다. 물론, 필요할 때 프레임을 몇개의 패킷으로 분할하는 것이 가능하다. 이와 달리, 다수의 프레임이, 원하는 경우, 하나의 패킷에 배치될 수 있으며, 이는 오디오 데이터에서 흔히 행해진다.

앞서 논의된 바와 같이, 상기한 논리적 구조가 물리적 구조를 암시할 필요는 없다. 메타 데이터가 메모리에 캐싱될 수 있고, (도 4에 나타낸 바와 같이) 힌트 트랙 샘플이 그가 참조하는 미디어 샘플과 물리적으로 인터리빙될 수 있다.

다른 대안으로서, 기존의 제시에서 메타 데이터 및 미디어 데이터를 참조하고 보강하는 힌트 트랙을 포함하는 새로운 메타 데이터 및 미디어 데이터의 집합을 작성하는 것이 가능하다. 도 5는 본 발명의 일 실시예에 따른, 별개의 파일에 있는 미디어 데이터를 참조하기 위해 힌트 트랙을 이용하는 것을 나타낸 것이다. 도 5에서, 2개의 영화 파일(502, 504)이 도시되어 있으며, 각각이 그 자신의 메타-데이터를 가지고 있다. 제1 영화 파일(502)은 비디오 트랙을 포함하고 있다. 제2 영화 파일(504)은 비디오 트랙과 힌트 트랙 둘다를 포함하고 있지만, 메타-데이터는 비디오 트랙에 대한 미디어 데이터가 제1 영화(502)에 있다고 선언하고 있다. 따라서, 영화 파일(504)과 연관된 힌트도 역시 제1 영화(502)에 있는 미디어 데이터를 가리키고 있다.

본 발명의 일 실시예에서, 미디어 파일은 다수의 프로토콜에 대한 패킷화 힌트 트랙을 포함하고 있을 수 있다. 그에 따라, 각각의 트랙은 힌트 트랙이 적절한 프로토콜의 선언(그리고 적절한 경우, 프로토콜 파라미터)을 포함하고 있을 수 있다. 이들 트랙 모두는, 물론, 파일 내의 기본 미디어 트랙으로부터의 미디어 데이터를 참조할 수 있다. 요망되는 프로토콜 독립성 및 확장성이 기술된 방식으로 충족될 수 있다.

본 발명의 일 실시예에서, 힌트 트랙이 미디어 트랙 내의 모든 데이터를 사용할 필요는 없다. 힌트 트랙은 대역폭 임계값에 도달하기 위해 또는 기타 이유로 (예를 들어, 어떤 비디오 프레임을 생략함으로써) 데이터의 부분집합을 사용할 수 있다. 동일한 프로토콜에 대해 다수의 힌트 트랙이 제공될 수 있기 때문에, 동일한 기본 미디어 정보의 상이한 부분집합이 상이한 레이트로 제공될 수 있다. 그에 따라, 본 발명은 종래의 방법 및 장치보다 개선된 확장성을 제공할 수 있다.

강조해 둘 점은, 비록 힌트 트랙 자체 및 QuickTime 메타-데이터가, 일 실시예에서, QuickTime 파일에 있어야만 하더라도, 기본 미디어가 QuickTime이 가져오기(import)하여 적절히 참조할 수 있는 임의의 파일 유형으로 되어 있을 수 있다는 것이다. 본 발명의 일 실시예에서, 영화 파일 내의 메타-데이터는 미디어 데이터가 다른 파일에 있다고 선언하는 데이터 참조를 포함할 수 있다. 샘플 테이블 오프셋 및 포인터는 이런 식으로 이 '외부' 파일('foreign' file)에 있는 데이터를 참조할 수 있다. 따라서, 본 발명의 일 실시예에 따르면, "au" 오디오 파일, "AVI" 오디오/비디오 파일, 및 MIDI 파일과 같은 기존의 레거시 형식이 기본 미디어 데이터의 복사 또는 형식 재지정을 필요로 하지 않고 스트리밍될 수 있다. 기본 미디어 데이터가 별개의 파일에 있는 QuickTime 선언 및 힌트 정보에 기입되지 않고 단지 그에 의해 보강되기 때문에, 기본 미디어 데이터도 역시 CDROM과 같은 판독 전용 머신 판독가능 매체를 통해 제공될 수 있다.

본 발명의 일 실시예에서, 힌트 트랙은 오프라인 계산의 결과를 구현하고 통상적으로 패킷화 및, 필요한 경우, 다중화를 지원하기 위한 정보를 서버에 제공하도록 최적화되어 있다.

예를 들어, RTP(IETF 표준 실시간 프로토콜) 및 MPEG-2 전송에 대한 예시적인 힌트가 부록 A 내지 부록 C에 나타내어져 있다.

본 발명의 일 실시예에서, 과도한 공간 오버헤드 없이, 하나의 파일이 다수의 프로토콜에 대한 힌트 트랙 또는 동일한 프로토콜에 대한 다수의 상이한 파라미터화를 지원할 수 있다. 기존의 프로토콜에 의존하는 시스템을 방해하는 일 없이, 새로운 프로토콜 및 그의 연관된 힌트 트랙이 설계될 수 있다. 따라서, 적어도 일 실시예에서, 본 발명은 프로토콜-중립적(protocol-neutral)이다.

QuickTime 파일 형식에서, 메타-데이터를 업데이트 또는 복사하고 보강함으로써 트랙이 영화에 추가될 수 있다. 미디어 데이터가 메타-데이터와 별개인 파일에 있거나 최적화된 인터리빙이 필요하지 않은 경우, 이것은 비교적 간단하고 효율적인 동작일 수 있다.

본 발명의 일 실시예에서, 단지 하나의 트랙을 포함하고, 원하는 경우, 원본에 있는 미디어 데이터를 참조할 수 있는 새로운 영화 메타-데이터 집합을 작성함으로써 트랙이 추출될 수 있다.

예를 들어, 본 발명의 일 실시예에서, 일련의 다른 오디오 트랙에 대한 대체물로서 표시되어 있는 새로운 오디오 트랙이 추가될 수 있다. 또한 언어 코드(예를 들어, 프랑스어, 또는 타갈로그어)가 표시되어 있는 경우, 제시 시에 적절한 트랙이 선택될 수 있다.

SMPTE 시간-코드 트랙은, 본 발명의 일 실시예에 따른, 필요할 때 존재하거나 추가 또는 제거될 수 있는 기본 스트림의 일례이다.

본 발명의 한 측면에 따르면, 힌트 트랙은, 기존의 서버 또는 로컬 재생에 대한 호환성 문제를 일으키지 않고, 새로운 프로토콜에 대한 새로운 형식의 개발을 가능하게 해줄 수 있다. 그에 부가하여, 역호환을 유지하면서 파일 형식의 수명에 걸쳐 새로운 미디어 트랙이 추가될 수 있다.

본 발명의 일 실시예에서, 확장성의 영역은 다음과 같은 것을 포함한다:

a) 현재의 QuickTime 파일 형식에 의해 포괄되지 않는 미디어 유형에 대해 정의될 수 있는 새로운 트랙 유형(예를 들어, 실험 기구 판독).

b) 정의될 수 있는 기존의 트랙에 대한 새로운 코딩 유형(예를 들어, 비디오 또는 오디오 코덱). 그의 코덱-고유 초기화 정보에 대한 명시적인 프로비전이 있다.

c) 새로운 프로토콜에 대해 정의될 수 있는 새로운 힌트 트랙 유형, 및 미디어 데이터 자체에 대한 공간 오버헤드를 야기하지 않고, 2개 이상의 프로토콜에 대한 힌트 정보를 포함할 수 있는 파일.

본 발명에서 판독 전용 매체 상의 기존의 콘텐츠(예를 들어, CD ROM, DVD 등에 사전 패키징된 영화)가 사용될 수 있다.

게다가, 본 발명의 한 측면에 따르면, 다양한 "외부" 파일 형식이 사용될 수 있다. 본 발명의 일 실시예에서, 예를 들어, 기존의 콘텐츠가 QuickTime 형식으로 되어 있거나 가져오기될 수 있는 경우, 그 콘텐츠는 복사 또는 형식 재지정을 필요로 하지 않고 편집 및 스트리밍될 수 있다.

본 발명의 일 실시예에서, 코덱이 대역폭의 확장성을 달성하기 위해 미디어 데이터의 스트라이핑을 지원하는 경우, 이들 스트라이핑된 대역폭이 다수의 스트림 트랙을 사용하여 나타내어질 수 있다. 각각의 트랙은 상이한 대역폭을 나타낼 수 있다. 트랙들이 기본 미디어의 선택된 부분집합에 함께 그룹화될 수 있다.

본 발명의 일 실시예에서, 프로토콜이 대역폭 확장성을 지원하는 경우, 힌트 트랙 자체가 각각의 프로토콜 데이터 단위(protocol data unit)(힌트 트랙 내의 샘플)에 대한 정보를 포함할 수 있다. 정보는 대역폭 임계값을 포함할 수 있고, 이 임계값을 넘는 프로토콜 데이터 단위는 네트워크로 전달되어야만 한다. 따라서, 힌트 트랙은 가용 대역폭을 높음, 낮음 등으로 나타낼 수 있고 및/또는 데이터 전송을 위한 대역폭에 관한 기타 정보를 나타낼 수 있다.

본 발명의 일 실시예에서, 프로토콜이 다중화 프로토콜(예를 들어, MPEG-2 전송)인 경우, 상이한 데이터 레이트를 달성하기 위해 기본 스트림 트랙(elementary stream track)의 상이한 부분집합을 사용하는 상이한 힌트 트랙이 작성될 수 있다. 따라서, 어떤 트랙이 전적으로 낮은 비트 레이트 전송을 위해 생략될 수 있다.

본 발명의 일 실시예에서, 상이한 코덱을 사용하여 기본 데이터(base data)를 기록하도록 요망되는 경우, 그 트랙들이 일군의 대체물로 형성될 수 있고, 단지 하나만이 제시를 위해 선택될 수 있다. 제시를 위해 어느 트랙을 사용할지의 선택은 통상적으로 프로토콜-의존적이고, 본 명세서에 기술된 힌트 트랙 방식을 사용하여 달성될 수 있다.

본 발명의 일 실시예에서, 암호화가 또한 미디어 파일에 사전 적용될 수 있다. 이 경우에, 암호화된 데이터가 (a) 원래의 미디어 데이터(또는 원래의 미디어 데이터는 더 이상 필요하지 않은 경우 제거될 수 있음)에 링크되어 있는 새로운 기본 스트림(새로운 트랙)에 또는 (b) 힌트 트랙 자체에 저장될 수 있다. (b)의 경우에, 힌트 트랙이 암호화되지 않은 기본 스트림으로부터 즉시 어떤 데이터도 추출하지 않는 것이 가능하다. 따라서, 모든 미디어 데이터는 힌트 트랙은 물론 스트리밍 패킷 프로토콜 데이터 단위 정보에 있을 수 있는데, 그 이유는 미디어 데이터가 암호화에 의해 변환될 수 있기 때문이다.

삽입된 객체 콘텐츠 정보의 일례로서, 전체 영화에 대한 그리고 개별 트랙에 대한 IETF 세션 설명 정보가 RTP 힌트 트랙에 대한 메타-데이터에 사용자 아톰으로서 저장될 수 있다.

본 발명의 일 실시예에서, 파일 형식은 통상적으로 재생가능 형식으로 된 미디어 데이터, 및 스트리밍 정보 둘다를 포함하고 있다. 일 실시예에서, 미디어 독립성, 프로토콜 독립성, 및 미디어를 로컬적으로 제시하는 기능을 유지하면서, 비교적 낮은 오버헤드를 갖는 이 형식으로부터 직접 스트리밍하는 것이 가능하다.

본 발명의 한 측면에 따르면, 힌트 트랙은 코덱, 타이밍 및 패킷화의 상세 정보를 추상화하여 오프라인 준비 프로세스에 넣을 수 있다. 따라서, 데이터 스트림을 발생하기 위해 힌트 트랙를 따라가는 것은 비교적 간단할 수 있고 스트리밍되는 미디어에 대한 어떤 특별한 정보도 필요로 하지 않을 수 있다. 따라서, 본 발명의 한 측면에 따르면, 서버를, 예를 들어, 데이터 내용의 상세로부터 분리시키는 것이 제공될 수 있다.

본 발명의 일 실시예에서, (예를 들어, 논리적 디스크 경계에 있는 디스크 상의 네트워크 PDU를 전송되어야 하는 시간 순서로 배열함으로써) 스트리밍을 위해 직접 최적화되는 파일을 구성하는 데 일련의 힌트 트랙이 사용될 수 있다. 이러한 파일은 더 이상 일반적인 제시가 아닐 수 있지만, 스트리밍될 수 있다. 일 실시예에서, 힌트 트랙을 사용하여 생성되는 패킷화된 파일이 저장될 수 있고, 예를 들어, 나중에 스트리밍을 위해 최적화될 수 있다.

본 발명의 일 실시예에서, 외부 파일 형식을 캡슐화함으로써, 미디어 데이터가 다른 형식으로 유지되면서 여전히 QuickTime으로 게시될 수 있다. 예를 들어, 기존의 형식이 적절한 래퍼(wrapper)를 적용함으로써 새로운 미디어 데이터 파일에 직접 캡슐화될 수 있거나, 본래대로 둔 채로 세그먼트 단위로 또는 힌트 트랙에 의해 전체로서 참조될 수 있으며, 이는 레거시 형식이 복사 없이 스트리밍될 수 있게 해준다. 하나의 영화가 다수의 레거시 형식으로부터 선택된 단편을 포함할 수 있다. 본 발명은 기본 미디어 형식을 제약하지 않는다.

일반적으로, 캡처, 저작 및 편집, 다운로드 및 스트리밍에 걸쳐 있는 공통의 형식은 일반적으로 유연성을 제공할 것이다. 자료가 사용 후에 재작업될 수 있거나, 복사 또는 형식 재지정되는 일 없이, 다수의 방식으로 사용될 수 있다. 본 발명의 일 실시예에서, 힌팅(hinting)되어 있는 자료를, 표준 편집기를 사용하여 힌트 트랙을 제거함으로써, 재작업하고 재사용하는 것이 가능하고, 이어서 편집 후에 다시 힌팅(re-hinting)하는 것이 완료된다.

로컬적으로 보기 위해 미디어 파일이 다운로드될 것이 요망되는 경우, 그를 위해 최적화된 인터리빙된 파일이 작성될 수 있고, 이 때 별개의 선언 파일에 있는 스트리밍 메타데이터는 동일한 기본 미디어 데이터를 참조하고 있다. 다운로드는, 따라서, 스트리밍 정보를 포함하고 있지 않을 수 있지만, 미디어 데이터가 스트리밍 서버에 단지 한번만 존재할 수 있다.

논리적 구조와 물리적 구조를 분리시킴으로써, 파일의 물리적 구조가 응용(예를 들어, 편집, 로컬 보기, 스트리밍)에 따라 다르게 최적화될 수 있다.

본 발명의 일 실시예에서, 각각의 미디어 트랙에 대해 다수의 힌트 트랙의 존재를 허용함으로써, 미디어의 다수의 사본을 필요로 하지 않고, 다수의 프로토콜을 통해 스트리밍함으로써 파일이 게시될 수 있다.

도 6은 본 발명의 일 실시예에 따른, 미디어 데이터가 처리될 수 있는 컴퓨터 시스템의 네트워크를 나타낸 것이다. 도 6에 도시된 바와 같이, 다수의 클라이언트 컴퓨터 시스템 - 이들 중 하나 이상의 클라이언트 컴퓨터 시스템은 도 3을 참조하여 전술한 수신 시스템의 한 구현을 나타낼 수 있음 - 이 인터넷(622)을 통해 서로 결합되어 있다. "인터넷"이라는 용어가 네트워크들의 네트워크를 말한다는 것을 잘 알 것이다. 이러한 네트워크는 정보의 교환을 위해 각종의 프로토콜(TCP/IP, ATM, SNA, SDI, 기타 등등)을 사용할 수 있다. 인터넷의 물리적 연결 및 인터넷의 프로토콜과 통신 절차가 당업자에게 공지되어 있다. 인터넷(622)에의 액세스는 통상적으로 ISP(624) 및 ISP(626)와 같은 ISP(Internet service provider, 인터넷 서비스 공급자)에 의해 제공된다. 클라이언트 컴퓨터 시스템(602, 604, 618, 620)과 같은 클라이언트 시스템에 있는 사용자는 일반적으로 ISP(624, 626)와 같은 인터넷 서비스 공급자를 통해 인터넷에 액세스한다. 인터넷에의 액세스는 클라이언트 컴퓨터 시스템(602, 604, 618, 620) 및/또는 웹 서버 시스템(628)과 같은 2개 이상의 디지털 처리 시스템 사이의 정보(예를 들어, 이메일, 텍스트 파일, 미디어 파일 등)의 전송을 용이하게 해줄 수 있다. 예를 들어, 클라이언트 컴퓨터 시스템(602, 604, 618, 620) 및/또는 웹 서버(628) 중 하나 이상이 미디어 데이터(예를 들어, 비디오와 오디오, 또는 비디오, 또는 오디오)를 클라이언트 컴퓨터 시스템(602, 604, 618, 620) 및/또는 웹 서버(628) 중 다른 하나 이상에 제공할 수 있다. 이러한 것이 요청에 응답하여 제공될 수 있다. 본 명세서에 기술된 바와 같이, 이러한 미디어 데이터가 시스템(600)에서 힌트에 따라 전송될 수 있다. 본 발명의 일 실시예에서, 이러한 힌트는 미디어 데이터의 특정 형식 및/또는 특정의 데이터 통신 (예를 들어, 네트워크) 프로토콜(들)에 따라 생성될 수 있다.

웹 서버(628)는 통상적으로 월드 와이드 웹의 프로토콜과 같은 하나 이상의 데이터 통신 프로토콜에 따라 동작하는 적어도 하나의 컴퓨터 시스템으로 이루어져 있고, 그에 따라, 통상적으로 인터넷(622)에 결합되어 있다. 선택적으로, 웹 서버(628)는 인터넷 및/또는 다른 네트워크에의 액세스를 클라이언트 컴퓨터 시스템에 제공할 수 있는 ISP의 일부일 수 있다. 클라이언트 컴퓨터 시스템(602, 604, 618, 620) 각각은, 적절한 웹 브라우징 소프트웨어를 사용하여, 웹 서버(628)에 의해 제공될 수 있는 HTML 문서(예를 들어, 웹 페이지)와 같은 데이터에 액세스할 수 있다. 이러한 데이터는 클라이언트 컴퓨터 시스템(602, 604, 618, 620)에 의해 제시될 수 있는 QuickTime 영화와 같은 미디어를 제공할 수 있다.

ISP(624)는 클라이언트 컴퓨터 시스템(602)의 일부로 간주될 수 있는 모뎀 인터페이스(606)를 통해 클라이언트 컴퓨터 시스템(602)에 인터넷 연결을 제공한다. 클라이언트 컴퓨터 시스템은 매킨토시 컴퓨터, "네트워크" 컴퓨터, 핸드헬드/휴대용 컴퓨터, 웹 TV 시스템, 또는 기타 유형의 디지털 처리 시스템(예를 들어, 디지털 처리 기능을 갖는 휴대폰)과 같은 종래의 컴퓨터 시스템일 수 있다. 이와 유사하게, ISP(626)도 클라이언트 컴퓨터 시스템(604, 618, 620)에 인터넷 연결을 제공하지만, 도 6에 나타낸 바와 같이, 이러한 연결이 클라이언트 컴퓨터 시스템(602, 604, 618, 620)과 같은 다양한 클라이언트 컴퓨터 시스템 사이에서 변할 수 있다. 예를 들어, 도 6에 나타낸 바와 같이, 클라이언트 컴퓨터 시스템(604)은 모뎀 인터페이스(608)를 통해 ISP(626)에 결합되어 있는 반면, 클라이언트 컴퓨터 시스템(618, 620)은 LAN(Local Area Network, 근거리 통신망)의 일부이다. 도 6에서 모뎀(606, 608)으로서 각각 도시되어 있는 인터페이스(606, 608)는 클라이언트 컴퓨터 시스템과 같은 디지털 처리 시스템을 다른 디지털 처리 시스템에 결합시키는 아날로그 모뎀, ISDN 모뎀, 케이블 모뎀, 위성 전송 인터페이스(예를 들어, "다이렉트 PC"), 무선 인터페이스, 또는 기타 인터페이스일 수 있다. 클라이언트 컴퓨터 시스템(618, 620)은, 각각, 네트워크 인터페이스(614, 616)를 통해 LAN 버스(612)에 결합되어 있다. 네트워크 인터페이스(614, 616)는 이더넷-유형, ATM(Asynchronous Transfer Mode, 비동기 전송 모드), 또는 기타 유형의 네트워크 인터페이스일 수 있다. LAN 버스는 또한 LAN에 방화벽 및 기타 인터넷-관련 서비스를 제공할 수 있는 게이트웨이 디지털 처리 시스템(610)에도 결합되어 있다. 게이트웨이 디지털 처리 시스템(610)은, 차례로, 클라이언트 컴퓨터 시스템(618, 620)에 인터넷 연결을 제공하기 위해 ISP(626)에 결합되어 있다. 게이트웨이 디지털 처리 시스템(610)은, 예를 들어, 종래의 서버 컴퓨터 시스템을 포함할 수 있다. 이와 유사하게, 웹 서버(628)도, 예를 들어, 종래의 서버 컴퓨터 시스템을 포함할 수 있다.

시스템(600)은 클라이언트 컴퓨터 시스템(602, 604, 618, 620) 및/또는 웹 서버(628) 중 하나 이상이 미디어 데이터(예를 들어, 비디오와 오디오, 또는 비디오, 또는 오디오)를 클라이언트 컴퓨터 시스템(602, 604, 618, 620) 및/또는 웹 서버(628) 중 다른 하나 이상에 제공할 수 있게 해줄 수 있다. 이러한 데이터는, 예를 들어, 수신 시스템[예를 들어, 클라이언트 컴퓨터 시스템(602, 604, 618, 620) 중 하나 이상일 수 있음]에 의한 요청에 응답하여 제공될 수 있다. 본 명세서에 기술된 바와 같이, 이러한 미디어 데이터가 시스템(600)에서 힌트 또는 힌트 트랙에 따라 전송될 수 있다. 본 발명의 일 실시예에서, 이러한 힌트는, 본 발명의 한 측면에 따르면, 미디어 데이터의 패킷화를 가능하게 해주기 위해, 미디어 데이터의 특정 형식 및/또는 특정의 데이터 통신 (예를 들어, 네트워크) 프로토콜(들)에 따라 생성될 수 있다.

도 7은 본 발명의 일 실시예에 따라 사용될 수 있는 디지털 처리 시스템의 블록도이다. 예를 들어, 도 7에 도시된 디지털 처리 시스템(650)은 클라이언트 컴퓨터 시스템, 웹 서버 시스템, 종래의 서버 시스템 등으로서 사용될 수 있다. 게다가, 디지털 처리 시스템(650)은 ISP(624 또는 626)와 같은 인터넷 서비스 공급자의 하나 이상의 기능을 수행하는 데 사용될 수 있다. 디지털 처리 시스템(650)은 모뎀 또는 네트워크 인터페이스(668)를 통해 외부 시스템과 인터페이스할 수 있다. 모뎀 또는 네트워크 인터페이스(668)가 디지털 처리 시스템(650)의 일부로서 간주될 수 있다는 것을 잘 알 것이다. 모뎀 또는 네트워크 인터페이스(668)는 2개 이상의 디지털 처리 시스템 사이의 데이터 통신 링크를 제공하는 아날로그 모뎀, ISDN 모뎀, 케이블 모뎀, 토큰 링 인터페이스, 위성 전송 인터페이스, 무선 인터페이스, 또는 기타 인터페이스(들)일 수 있다.

디지털 처리 시스템(650)은 하나 이상의 프로세서를 나타낼 수 있는 프로세서(652)를 포함하고, Motorola PowerPC 프로세서, Intel Pentium(또는 x86) 프로세서 등과 같은 하나 이상의 종래의 유형의 이러한 프로세서를 포함할 수 있다. 메모리(155)는 버스(656)에 의해 프로세서(652)에 결합되어 있다. 메모리(155)는 DRAM(dynamic random access memory)일 수 있고 및/또는 SRAM(static RAM)을 포함할 수 있다. 프로세서는 또한 메모리(155)의 일부로서 간주될 수 있거나 메모리(155)와 분리되어 있을 수 있는 기타 유형의 저장 영역/메모리(예를 들어, 캐시, 플래시 메모리, 디스크 등)에 결합될 수 있다.

버스(656)는 또한 프로세서(652)를 디스플레이 제어기(658), 대용량 메모리(662), 모뎀 또는 네트워크 인터페이스(668), 및 입/출력(I/O) 제어기(664)에 결합시킨다. 대용량 메모리(662)는 정보를 저장하는 자기, 광학, 광자기, 테이프, 및/또는 기타 유형의 머신-판독가능 매체/장치를 나타낼 수 있다. 예를 들어, 대용량 메모리(662)는 하드 디스크, 판독 전용 또는 기입가능 광 CD 등을 나타낼 수 있다. 디스플레이 제어기(658)는 CRT(cathode ray tube) 디스플레이, LCD(liquid crystal display), 플라즈마 디스플레이, 또는 기타 유형의 디스플레이 장치를 나타낼 수 있는 디스플레이(660)를 종래의 방식으로 제어한다. I/O 제어기(664)는 하나 이상의 키보드, 마우스/트랙볼 또는 기타 포인팅 장치, 자기 및/또는 광 디스크 드라이브, 프린터, 스캐너, 디지털 카메라, 마이크 등을 포함할 수 있는 I/O 장치(들)(666)를 제어한다.

디지털 처리 시스템(650)이 많은 다른 구성 및 아키텍처를 가질 수 있고 본 발명에서 이용될 수 있는 시스템의 단지 한 일례를 나타낸다는 것을 잘 알 것이다. 예를 들어, 매킨토시 및 인텔 시스템은 종종 주변 장치 버스, 전용 캐시 버스 등과 같은 다수의 버스를 가진다. 한편, 본 발명의 디지털 처리 장치로서 사용될 수 있는 네트워크 컴퓨터는, 예를 들어, 하드 디스크 또는 기타 대용량 저장 장치를 포함하지 않을 수 있지만, 프로세서(652)에 의해 처리될 루틴 및/또는 데이터를 네트워크 연결[모뎀 또는 인터페이스(668) 등]로부터 수신할 수 있다. 이와 유사하게, 기술 분야에 공지되어 있는 웹 TV 시스템도 본 발명의 디지털 처리 시스템으로 간주될 수 있지만, 이러한 시스템은 I/O 장치(들)(666)를 참조하여 전술한 것과 같은 하나 이상의 I/O 장치를 포함하지 않을 수 있다. 그에 부가하여, 휴대폰 및/또는 페이징 기능을 이용할 수 있는 휴대용 통신 및 데이터 처리 시스템이 본 발명에서 사용될 수 있는 디지털 처리 시스템으로 간주될 수 있다.

도 7에 도시된 시스템(650)에서, 대용량 메모리(662)[및/또는 메모리(654)]는 본 발명에 따라(예를 들어, 힌트를 통해) 처리될 수 있는 미디어(예를 들어, 비디오, 오디오, 영화 등)를 저장할 수 있다. 다른 대안으로서, 미디어 데이터가, 예를 들어, 모뎀 또는 네트워크 인터페이스(668)를 통해 디지털 처리 시스템(650)에 의해 수신될 수 있고 디스플레이(660) 및/또는 I/O 장치(들)(666)에 의해 저장 및/또는 제시될 수 있다. 일 실시예에서, 패킷화된 미디어 데이터는 힌트 트랙에 따라 LAN 및/또는 인터넷과 같은 데이터 통신 네트워크를 거쳐 전송될 수 있다. 한편, 프로세서(652)는 하나 이상의 힌트 트랙을 갖는 파일을 사용하기 위해 또는, 다른 대안으로서, 하나 이상의 힌트 트랙을 생성하기 위해, 힌트 트랙에 따라 제시 또는 패킷화하기 위한 미디어(예를 들어, 사전 패키징된 영화, 오디오 파일, 비디오 파일 등)를 처리하기 위해 하나 이상의 루틴을 실행할 수 있다. 이러한 루틴은 디지털 처리 시스템(650)에 의해 액세스될 수 있는 대용량 메모리(662), 메모리(664) 및/또는 다른 머신-판독가능 매체에 저장될 수 있다. 일 실시예에서, 디지털 처리 시스템(650)은 힌트 트랙이 삽입되어 있는 미디어 데이터를 처리할 수 있다. 이와 유사하게, 이러한 삽입된 미디어 데이터도 디지털 처리 시스템(650)에 의해 액세스될 수 있는 대용량 메모리(662), 메모리(664) 및/또는 다른 머신-판독가능 매체에 저장될 수 있다.

도 8은 본 발명의 일 실시예에 따른, 미디어 데이터를 전송하기 위해 힌트를 이용하는 시스템의 블록도이다. 도 8에 도시된 시스템(680)은 데이터 통신 링크(686)를 통해 서버(694)에 결합된 클라이언트 데이터 처리 시스템(682)으로서 나타내어져 있는 수신 시스템을 포함한다. 서버(694) 및/또는 클라이언트 데이터 처리 시스템은, 예를 들어, 도 6 및 도 7을 참조하여 기술된 장치들/시스템들 중 하나 또는 그 조합을 나타낼 수 있다.

서버(694)는 힌트 발생 및 처리 장치(688), 미디어 처리 장치(690), 및 데이터 통신 장치(692)를 포함하고, 이들 각각은 하드-와이어드 회로(hard-wired circuitry) 또는 머신-실행가능 명령어 또는 그 조합을 포함할 수 있다. 게다가, 이러한 하드-와이어드 회로 및/또는 머신-실행가능 명령어의 적어도 일부분이 힌트 발생 및 처리 장치(688), 미디어 처리 장치(690), 및 데이터 통신 장치(692)의 조합 사이에서 공유될 수 있다. 일 실시예에서, 적어도 하나의 프로세서에 결합되어 있는, 적절한 루틴 및/또는 데이터가 저장되어 있는 적어도 하나의 저장 영역/메모리(예를 들어, 머신-판독가능 매체)가, 적어도 부분적으로, 힌트 발생 및 처리 장치(688), 미디어 처리 장치(690), 및 데이터 통신 장치(692) 중 하나 또는 그 조합을 구현하는 데 이용된다.

일 실시예에서, 힌트 발생 및 처리 장치(688)는 미디어 처리 장치(690)에 의해 처리되는 미디어 데이터의 패킷화를 위한 힌트를 생성하고 저장한다. 이상에서 기술한 바와 같이, 힌트가 발생되고 미디어 파일에 대해 별개의 파일로서 저장될 수 있거나, 미디어 파일에 삽입될 수 있다. 2개 이상의 미디어 형식이 처리되어야 하는 경우, 힌트를 발생하기 위해 힌트 발생 및 처리 장치(688)에 의해 적절한 형식이 고려될 수 있다. 미디어 형식에 관한 정보가 미디어 처리 장치(690)에 의해 제공될 수 있고, 미디어 처리 장치(690)는 또한 미디어 데이터(예를 들어, 비디오, 오디오, 또는 비디오와 오디오의 미디어 파일 등)도 제공할 수 있다. 이와 유사하게, 데이터 통신 장치(692)는 데이터 통신 링크(686)를 통해 힌트에 따라 패킷화된 이러한 미디어 데이터를 교환하기 위한 하나 이상의 데이터 통신(예를 들어, 네트워크) 프로토콜을 제공할 수 있다. 그에 따라, 힌트 발생 및 처리 장치는, 미디어 처리 장치(690)에 의해 제공된 미디어 형식 정보 및 데이터 통신 장치(692)에 의해 제공된 데이터 통신 프로토콜 정보에 기초하여, 적절한 힌트 및 클라이언트 데이터 처리 시스템(682)과 같은 수신측 디지털 처리 시스템으로 전송하기 위한 미디어 및/또는 힌트의 패킷화를 결정할 수 있다. 일 실시예에서, 미디어 및 힌트의 스트리밍이 QuickTime 형식에 따라 행해진다.

데이터 통신 링크(686)를 통해 수신된 미디어 데이터 및 힌트 패킷에 응답하여, 클라이언트 데이터 처리 시스템(682)은 미디어 데이터로 표현된 미디어 객체를 제시할 수 있다. 이러한 제시는, 상기한 바와 같이, 사용후 삭제되는 방식으로 수행될 수 있다. 본 발명의 일 실시예에서, 미디어 데이터는 선택적으로 클라이언트 데이터 처리 시스템(682)에 의해 저장될 수 있고, 예를 들어, 나중에 클라이언트 데이터 처리 시스템(682)에 의한 제시 및/또는 전송을 위해 재조립될 수 있다.

도 9는 본 발명의 일 실시예에 따른, 미디어 데이터를 전송하기 위해 힌트를 이용하는 시스템의 블록도이다. 상세하게는, 도 9는 발생기라고 하는 별개의 디지털 처리 시스템이 클라이언트 컴퓨터 시스템과 같은 다른 시스템으로 전송할 미디어 데이터를 패킷화하기 위해 힌트를 사용하는 서버와 같은 다른 시스템에 제공할 힌트(또는 힌트 트랙)를 발생할 수 있는 본 발명의 일 실시예를 나타낸 것이다. 데이터 통신 링크(686)를 통해 클라이언트 데이터 처리 시스템(682)과 데이터를 교환할 수 있는 서버(700)를 포함하는 시스템(696)이 도 9에 도시되어 있다. 그렇지만, 도 9에 도시된 실시예에서, 서버(700)는 힌트를 발생하지 않는다. 오히려, 데이터 통신 링크(708)에 의해 서버(700)에 결합되는 발생기(710)는 미디어 데이터를 패킷화하는 데 사용되는 힌트를 발생하는 힌트 발생 장치(712)를 포함한다.

일 실시예에서, 시스템(696)의 동작은 다음과 같다: 서버(700)는 미디어 데이터를 포함하는 하나 이상의 미디어 파일에 대한 힌트를 발생하도록 발생기(710)에 요청한다. 예를 들어, 미디어 파일은 서버(700)에서 머신-판독가능 매체에 저장될 수 있다. 이 요청은 미디어 파일의 형식 및/또는 미디어 데이터 및/또는 기타 데이터의 전송을 위한 데이터 통신 프로토콜을 나타내는 정보를 포함할 수 있다. 데이터 통신 프로토콜은, 본 발명의 일 실시예에서, 서버(700)와 클라이언트 데이터 처리 시스템(682) 사이에서의 미디어 및/또는 기타 데이터의 교환을 용이하게 해주기 위해 특정의 물리적 및 논리적 특성을 갖는 네트워크 연결과 연관되어 있을 수 있는 데이터 통신 링크(686)에 관련되어 있을 수 있다. 이 요청에 응답하여, 힌트 발생 장치(712)는 시간-관련 힌트 트랙과 연관되어 있을 수 있는 적절한 힌트를 발생하고, 힌트를 서버(700)에 제공한다. 데이터 통신 링크(708)를 통해 발생기(710)로부터 수신된 힌트에 응답하여, 서버(700), 특히 힌트 처리 장치(702)는 힌트를 사용하여, 클라이언트 데이터 처리 시스템(682)으로 전송할 미디어 데이터를 패킷화한다.

도 10은 본 발명의 일 실시예에 따른, 미디어 데이터 전송을 제공하기 위한 힌트를 발생하는 방법을 나타낸 흐름도이다. 단계(720)에서, 2개 이상의 형식이 사용될 것인 경우, 전송될 미디어 데이터에 대한 미디어 형식이 결정된다. 단지 하나의 형식이 사용되는 경우, 720이 수행되지 않을 수 있다. 단계(722)에서, 다시 말하지만, 2개 이상(프로토콜)이 사용될 수 있는 것으로 가정하여, 적절한 데이터 통신 프로토콜(들)이 결정된다. 단계(724)에서, 미디어 형식 및 데이터 통신 프로토콜(들)(이들 중 하나 또는 둘다가 선택/구성되어 있을 수 있음)에 기초하여, 미디어 데이터 전송에 관련된 힌트(예를 들어, 힌트 트랙)가 생성되고 저장된다.

선택적인 단계(726)에서, 힌트가 다른 디지털 처리 시스템으로 전송될 수 있다. 본 발명의 일 실시예에서, 예를 들어, 도 10의 방법이, 적어도 부분적으로, 하나의 디지털 처리 시스템(예를 들어, 서버)에 의해 배타적으로 수행될 수 있다. 대안의 실시예에서, 도 10의 방법이, 적어도 부분적으로, 2개 이상의 디지털 처리 시스템에 의해 수행될 수 있다. 예를 들어, 미디어 데이터의 속성이 서버 또는 기타 시스템에 의해 발생기와 같은 다른 디지털 처리 시스템에 제공될 수 있다. 그에 응답하여, 발생기는, 속성에 기초하여, 적절한 미디어 형식, 데이터 통신 프로토콜(들), 및 미디어 데이터의 패킷화를 위한 힌트를 결정할 수 있고, 이들이 서버에 저장될 수 있다. 다른 대안으로서, 서버는 적절한 미디어 형식 및 프로토콜(들)을 발생기에 제공할 수 있고, 그러면 발생기는 힌트를 발생할 수 있다. 발생기는 힌트를 서버 또는 기타 디지털 처리 시스템으로 전송할 수 있고, 서버 또는 기타 디지털 처리 시스템은 힌트에 따라 미디어 데이터를 패킷화할 수 있다.

도 11은 본 발명의 일 실시예에 따른, 힌트에 따라 수신 시스템에 의해 수신되는 미디어 데이터를 처리하는 방법을 나타낸 흐름도이다. 단계(730)에서, 힌트 또는 힌트 트랙에 따라 수신 시스템으로 전송된 미디어 데이터가 수신 시스템에 의해 수신된다. 일 실시예에서, 수신 시스템은 패킷화된 미디어 데이터는 물론, 패킷화된 힌트 트랙을 수신할 수 있다. 본 발명의 일 실시예에서, 힌트 트랙은 미디어 데이터의 적어도 일부분과 연관되어 있을 수 있다. 이러한 데이터는, 수신 시스템에 의해 행해질 수 있는 요청에 응답하여, 수신 시스템에 의해 수신될 수 있다. 예를 들어, 일 실시예에서, 수신 시스템은 클라이언트 컴퓨터 시스템일 수 있고, 요청은 서버 또는 미디어 데이터의 다른 디지털 처리 시스템에 대해 행해질 수 있다. 그에 응답하여, 서버는 미디어 데이터를 패킷화하기 위한 힌트를 발생할 수 있고(또는 별개의 디지털 처리 시스템에 의해 발생시켰을 수 있고), 힌트를 포함할 수 있는 패킷화된 미디어 데이터를 수신 시스템으로 전송할 수 있다.

단계(732)에서, 수신 시스템에 의해 수신된 미디어 데이터에 의해 표현된 미디어 객체가 수신 시스템에 의해 제시된다. 예를 들어, 미디어 데이터는 수신 시스템에 의해, 예를 들어, 디스플레이 및 스피커(들)를 통해 "제시"되는 비디오, 오디오 또는 그 조합을 포함할 수 있다. 앞서 언급한 바와 같이, 미디어 데이터는 QuickTime 영화와 연관되어 있을 수 있다.

선택적으로, 단계(734)에서, 힌트를 포함할 수 있는 미디어 데이터는 수신 시스템에 의해 미디어 파일(들)로서 저장될 수 있다. 따라서, 본 발명의 대안의 실시예에서, 단계(732)는 미디어 데이터가 수신될 때 수행되지 않을 수 있거나, 단계(734) 이전에, 이후에 또는 그와 병렬로 수행될 수 있다.

단계(734)에서, 저장된 미디어 파일은 선택적으로 재조립 및/또는 제시될 수 있다. 그에 따라, 단계(732)가 단계(734) 이후에 수행될 수 있다.

도 12는 본 발명의 일 실시예에 따른, 발생기와 같은 디지털 처리 시스템에 의해 액세스될 수 있는 머신 판독가능 저장 매체의 일례이다. 도 12에 도시되고 그를 참조하여 이하에 기술되는 요소를 저장하는 실제 메모리가 하나 이상의 디스크(예를 들어, 자기 디스크, 광 디스크, 광자기 디스크 등일 수 있음), 도 7을 참조하여 전술한 메모리(654) 및/또는 대용량 메모리(662)와 같은 하나 또는 몇개의 요소일 수 있다는 것을 잘 알 것이다. 게다가, 도 12에 도시된 머신 판독가능 저장 매체와 연관되어 있는 발생기가 네트워크 컴퓨터인 일 실시예에서, 머신 판독가능 저장 매체의 요소들 중 하나 이상의 요소가 다른 디지털 처리 시스템에 저장되어 있고 발생기에 다운로드될 수 있다. 게다가, 머신 판독가능 저장 매체를 참조하여 기술된 요소가, 어떤 시점에서, 비휘발성 대용량 메모리(예를 들어, 하드 디스크)에 저장될 수 있다. 이와 달리, 다른 때에, 머신 저장 매체의 요소가 DRAM, SRAM, 디스크 등과 같은 상이한 저장 영역 사이에 분산되어 있을 수 있다.

도 12는 머신 판독가능 저장 매체(740)를 나타낸 것이다. 일 실시예에서, 머신 판독가능 저장 매체는, 적어도 부분적으로, 본 발명의 하나 이상의 방법(들)에 따라 힌트 또는 힌트 트랙을 발생하는 디지털 처리 시스템(즉, 발생기)에 의해 이용된다. 발생기가, 도 8을 참조하여 기술된 바와 같이, 힌트 트랙에 따라 미디어 데이터를 전송하는 디지털 처리 시스템에 통합될 수 있거나, 도 9를 참조하여 기술된 바와 같이, 힌트를 생성하여, 미디어 데이터를 패킷화하고 전송하기 위해 힌트를 이용하는 다른 디지털 처리 시스템(서버 등)에 제공하는 디지털 처리 시스템일 수 있다.

도 12에 도시된 바와 같이, 머신 판독가능 저장 매체(740)는 통상적으로 다수의 요소를 포함한다. 예를 들어, 머신 판독가능 저장 매체(740)는 발생기 운영 체제(OS)(742)로 나타낸 바와 같은 운영 체제 기능을 발생기에 제공하는 소프트웨어를 포함한다. 네트워크 전송 루틴(들)(748)은 발생기가 데이터 통신 링크를 통해 데이터를 전송 및 수신할 수 있게 해주는 루틴, 프로토콜 등과 같은 데이터 통신 기능을 제공한다.

그에 부가하여, 머신 판독가능 저장 매체(740)는 미디어 전송과 연관된 힌트를 생성하는 루틴 및 데이터를 포함한다. 그 자체로서, 머신 판독가능 저장 매체(740)는 힌트 생성 루틴(들)(744)에 의해 힌트를 생성하는 데 필요할 수 있는 하나 이상의 데이터 통신 프로토콜 및 미디어 형식에 관한 정보를 제공할 수 있는 정보(750)를 선택적으로 포함할 수 있다. 예를 들어, 정보(750)는 QuickTime 영화, RTP, MPEG 등에 관한 정보를 포함할 수 있다. 그렇지만, 이러한 정보는, 적어도 부분적으로, 힌트 생성 루틴(744)에 통합되어 있을 수 있고 및/또는 원격 디지털 처리 시스템에 의해 발생기에 제공될 수 있다.

힌트 생성 루틴(들)(744)에 의해 생성된 힌트는 생성된 힌트(746)로서 저장될 수 있고 및/또는 다른 곳에(예를 들어, 서버일 수 있는 원격 디지털 처리 장치에) 저장/전송될 수 있다. 힌트는 역시 시간-관련되어 있는 미디어 데이터(예를 들어, 비디오, 오디오, 비디오와 오디오 등)의 패킷화 및 전송을 위해 시간-관련되어 있는 힌트 트랙이다.

머신 판독가능 저장 매체(740)가 발생기를 참조하여 기술되어 있지만, 매체(740)는, 적어도 부분적으로, 다수의 유형의 디지털 처리 시스템, 데이터 저장 매체 등의 일부일 수 있다. 예를 들어, 머신 판독가능 저장 매체(740)는, 적어도 부분적으로, 서버 또는 기타 디지털 처리 시스템의 일부로서 포함될 수 있다. 게다가, 머신 판독가능 저장 매체(740)는, 적어도 부분적으로, 하나 이상의 디스크 또는 기타 머신 판독가능 매체에 소프트웨어 유틸리티의 일부로서 저장될 수 있다.

도 13은 본 발명의 일 실시예에 따른, 서버와 같은 디지털 처리 시스템에 의해 액세스될 수 있는 머신 판독가능 저장 매체의 일례이다. 도 13에 도시되고 그를 참조하여 이하에 기술되는 요소를 저장하는 실제 메모리가 하나 이상의 디스크(예를 들어, 자기 디스크, 광 디스크, 광자기 디스크 등일 수 있음), 도 7을 참조하여 전술한 메모리(654) 및/또는 대용량 메모리(662)와 같은 하나 또는 몇개의 요소일 수 있다는 것을 잘 알 것이다. 게다가, 도 13에 도시된 머신 판독가능 저장 매체와 연관되어 있는 서버가 네트워크 컴퓨터인 일 실시예에서, 머신 판독가능 저장 매체의 요소들 중 하나 이상의 요소가 다른 디지털 처리 시스템에 저장되어 있고 서버에 다운로드될 수 있다. 게다가, 머신 판독가능 저장 매체를 참조하여 기술된 요소가, 어떤 시점에서, 비휘발성 대용량 메모리(예를 들어, 하드 디스크)에 저장될 수 있다. 이와 달리, 다른 때에, 머신 저장 매체의 요소가 DRAM, SRAM, 디스크 등과 같은 상이한 저장 영역 사이에 분산되어 있을 수 있다.

도 13은 머신 판독가능 저장 매체(760)를 나타낸 것이다. 일 실시예에서, 머신 판독가능 저장 매체는, 적어도 부분적으로, 본 발명의 하나 이상의 방법(들)에 따라 데이터 통신 링크를 통해 전송하기 위한 미디어 데이터를 패킷화하는 데 이용된다. 머신 판독가능 저장 매체(760)는 힌트 트랙을 생성하고 힌트 트랙에 따라 미디어 데이터를 전송하는 루틴을 포함하는, 도 8을 참조하여 기술된 서버(694)와 같은 서버와 연관되어 있을 수 있다. 다른 실시예에서, 머신 판독가능 저장 매체(760)는 도 9를 참조하여 기술된 서버(700)와 같은 디지털 처리 시스템과 연관되어 있을 수 있고, 여기서 발생기와 같은 디지털 처리 시스템은 힌트를 생성하는 루틴을 포함하고, 서버는, 머신 판독가능 저장 매체(760)에 의해 제공된 루틴에 의해 처리되는 힌트를 사용하여, 미디어 데이터를 패킷화하고 전송할 수 있다.

머신 판독가능 저장 매체(760)는 다수의 요소를 포함한다. 예를 들어, 머신 판독가능 저장 매체(760)는 서버 운영 체제(OS)(762)로 나타낸 바와 같은 운영 체제 기능을 서버에 제공하는 소프트웨어를 포함한다. 네트워크 전송 루틴(들)(768)은 서버가 데이터 통신 링크를 통해 데이터를 전송 및 수신할 수 있게 해주는 루틴, 프로토콜 등과 같은 데이터 통신 기능을 제공한다.

그에 부가하여, 머신 판독가능 저장 매체(760)는, 힌트에 기초하여 시간-관련되어 있을 수 있고 또한 패킷화될 수 있는 미디어 데이터를 패킷화하는 미디어 패킷화 루틴(770)을 포함한다. 그에 따라, 머신 판독가능 저장 매체(760)는 미디어 데이터(예를 들어, QuickTime 영화 또는 기타 미디어 트랙일 수 있음)를 저장하는 미디어 데이터 저장 영역(764) 및 힌트(예를 들어, 힌트 트랙)를 저장하는 힌트 저장 영역(766)을 포함한다. 힌트는 역시 통상적으로 시간-관련되어 있는 미디어 데이터(예를 들어, 비디오, 오디오, 비디오와 오디오)의 패킷화 및 전송을 위해 시간-관련되어 있는 힌트 트랙을 포함할 수 있다. 일 실시예에서, 힌트 트랙은 미디어 데이터 패킷과 분리되어 패킷화된다. 일 실시예에서, 힌트는 별개의 미디어 파일에 있을 수 있는 미디어 데이터[예를 들어, 특정의 패킷(들)]를 식별해주는 포인터 정보를 포함한다.

도 14는 본 발명의 일 실시예에 따른, 수신 시스템 또는 다른 디지털 처리 시스템과 같은 디지털 처리 시스템에 의해 액세스될 수 있는 머신 판독가능 저장 매체의 일례이다. 도 14에 도시되고 그를 참조하여 이하에 기술되는 요소를 저장하는 실제 메모리가 하나 이상의 디스크(예를 들어, 자기 디스크, 광 디스크, 광자기 디스크 등일 수 있음), 도 7을 참조하여 전술한 메모리(654) 및/또는 대용량 메모리(662)와 같은 하나 또는 몇개의 요소일 수 있다는 것을 잘 알 것이다. 게다가, 도 14에 도시된 머신 판독가능 저장 매체와 연관되어 있는 수신 시스템이 네트워크 컴퓨터인 일 실시예에서, 머신 판독가능 저장 매체의 요소들 중 하나 이상의 요소가 다른 디지털 처리 시스템에 저장되어 있고 수신 시스템에 다운로드될 수 있다. 게다가, 머신 판독가능 저장 매체를 참조하여 기술된 요소가, 어떤 시점에서, 비휘발성 대용량 메모리(예를 들어, 하드 디스크)에 저장될 수 있다. 이와 달리, 다른 때에, 머신 저장 매체의 요소가 DRAM, SRAM, 디스크 등과 같은 상이한 저장 영역 사이에 분산되어 있을 수 있다.

도 14는 머신 판독가능 저장 매체(780)를 나타낸 것이다. 일 실시예에서, 머신 판독가능 저장 매체는, 적어도 부분적으로, 본 발명의 하나 이상의 방법(들)에 따라 패킷화되는 미디어 데이터를 처리하는 데 이용된다. 머신 판독가능 저장 매체(780)는 힌트에 따라 전송/수신된 미디어 데이터를 제시하는 루틴을 포함하는 도 8 및 도 9을 참조하여 기술된 클라이언트 데이터 처리 시스템(682)과 같은 수신 시스템과 연관되어 있을 수 있다. 다른 대안으로서, 머신 판독가능 저장 매체(780)는 힌트(예를 들어, 힌트 트랙)가 삽입되어 있는 미디어 데이터를 포함할 수 있다. 이러한 삽입된 미디어 데이터는 머신 판독가능 저장 매체(780)와 같은 머신 판독가능 저장 매체에 저장된 루틴에 의해 사전 패키징되거나 발생될 수 있다.

머신 판독가능 저장 매체(780)는 다수의 요소를 포함할 수 있다. 예를 들어, 머신 판독가능 저장 매체(780)는 서버 운영 체제(OS)(772)로 나타낸 바와 같은 운영 체제 기능을 수신 시스템에 제공하는 소프트웨어를 포함한다. 네트워크 전송 루틴(들)(782)은 서버가 데이터 통신 링크를 통해 데이터를 전송 및 수신할 수 있게 해주는 루틴, 프로토콜 등과 같은 데이터 통신 기능을 제공한다.

그에 부가하여, 머신 판독가능 저장 매체(780)는 힌트에 따라 패킷화된 미디어 데이터를 제시하는 미디어 제시 루틴(778)을 포함한다. 따라서, 머신 판독가능 저장 매체(780), 상세하게는 미디어 제시 루틴(778)은 오디오 및/또는 비디오 데이터를 압축 해제하고, 비디오를 디스플레이하며, 및/또는 오디오를 재생하는 등을 하는 루틴을 포함할 수 있다. 게다가, 미디어 제시 루틴(778)은 통상적으로 미디어 데이터와 연관되어 있는 힌트의 처리를 제공한다. 일 실시예에서, 미디어가 제시될 때 힌트가 단순히 무시된다.

선택적으로, 머신 판독가능 저장 매체(780)는 힌트에 따라 패킷화된 미디어 데이터를 미디어 데이터(774)로서 저장할 수 있고, (예를 들어, 제시, 전송 등이 행해질) 저장된 미디어 데이터를 재조립하는 미디어 데이터 재조립 루틴(776)을 포함할 수 있다.

도 15는 본 발명의 일 실시예에 따른, 미디어 및 힌트 정보를 저장/전달하는 데이터 저장 및/또는 통신 매체를 나타낸 것이다. 본 발명에 따라 패킷화된 미디어 데이터 패킷(804) 및 힌트 패킷(806)이 저장되거나 전송될 수 있는 다양한 유형의 전송 및/또는 저장 매체를 나타내는 데이터 저장 및/또는 통신 매체(매체)(800)가 도시되어 있다. 예를 들어, 매체(800)는 도 7을 참조하여 전술한 대용량 메모리(662) 및/또는 메모리(654)를 나타낼 수 있다. 매체(800)는 또한 미디어 및/또는 기타 정보를 나타내는 데이터/신호를 전송하는 도 6에 도시된 LAN 버스(612) 또는 데이터 통신 링크(686)와 같은 통신 매체를 나타낼 수 있다.

힌트 패킷(806) 및 미디어 패킷(804)이 하나의 패킷으로 통합되거나, 도 15에 나타낸 바와 같이 분리되어 저장 및/또는 전송될 수 있다. 게다가, 힌트 패킷(806) 및 미디어 패킷(804)이 본 명세서에 기술된 것 또는 기타 미디어 형식, 네트워크 프로토콜, 및/또는 디지털 처리 장치 아키텍처와 연관된 것과 같은 몇가지 유형의 형식을 구현할 수 있다.

추출기 트랙

힌트 트랙과 유사하게, 비디오 트랙이 멀티뷰 코딩된 미디어에서 이용가능한 다수의 미디어 스트림을 나타내는 데 사용될 수 있다. MVC(multiview coded) 미디어는 동일한 비디오 콘텐츠의 다수의 시점(viewpoint)을 저장하는 미디어이다. 예를 들어, 멀티뷰 코딩된 미디어는 단일 또는 플랫 뷰(flat view), 3차원 비디오, 자유 시점(free viewpoint) 비디오, 고성능 이미지 형성 등에 적당한 비디오 스트림을 저장할 수 있다. 예를 들어, 멀티뷰 코더(multiview coder)는 N개의 시간적으로 동기화된 비디오 스트림을 수신하고, 하나의 MVC 비트스트림을 발생한다. MVC 디코더는 이 비트스트림을 수신하고, 디코딩하며, N개의 비디오 스트림을 출력한다. 이 일례에서, N개의 비디오 비트스트림 각각은 동일한 비디오물(video subject matter)의 상이한 시점을 나타낸다. 멀티뷰 코딩된 미디어의 한 일례는, 도 16a에 나타낸 바와 같이, H.264/MPEG-4 AVC 비디오 코덱에서 사용되는 멀티뷰 비디오 코딩이다. MVC는 하나의 MVC 기본 비디오 트랙으로 코딩되는 다수의 비디오 스트림을 나타내는 데 사용된다. MVC 기본 비디오 트랙으로부터 이용가능한 각각의 비디오 스트림은 비디오 동작 지점에 대응한다. 일 실시예에서, 비디오 동작 지점은 2차원 비디오 뷰, 3차원 비디오, 자유 시점 뷰 등과 같은 비디오의 특정의 뷰에 대응한다. 예를 들어, 일 실시예에서, 2차원 비디오 뷰는 단일(또는 플랫) 뷰이다. 2차원 비디오의 일레는 H.264/MPEG-4 AVC 비디오 코덱을 사용하여 생성되는 표준 AVC 비디오이다. 이 일례에서, 2차원 비디오는 하나의 비디오 스트림으로 이루어져 있다. 대안의 실시예에서, 3차원 비디오는 비디오에서의 관찰된 장면의 3차원 깊이감(depth impression)을 제공한다. 3차원 비디오는 화상 회의, 3차원 텔레비전, 3차원 영화, 및 고성능 이미지 형성에서 사용된다. 이 일례에서, 3차원 비디오는 2개의 비디오 스트림 - 하나는 좌측 뷰에 대한 것이고 다른 하나는 우측 뷰에 대한 것임 - 으로 이루어져 있다. 다른 실시예에서, 자유 시점 비디오는 멀티뷰 코딩된 미디어의 정의된 동작 범위 내에서 시점 및 방향의 상호작용적 선택을 가능하게 해준다. 이 실시예에서, 자유 시점 비디오는 각각의 상이한 시점에 대한 비디오 스트림으로 이루어져 있다. 예를 들어, 자유 시점 비디오는 4개 이상의 시점 - 이로부터 4개의 상이한 비디오 스트림이 얻어짐 - 을 가질 수 있다. 자유 시점 비디오에 대해 이하에서 도 16a를 참조하여 더 기술한다. 상이한 멀티뷰 응용에 대한 각각의 비디오 스트림은 변하는 시간적, 공간적 및/또는 품질 특성을 가질 수 있다. 예를 들어, 예시로서, 시간적 비디오 속성은 비디오 스트림 프레임 레이트(예를 들어, 8, 15, 30 fps 등)를 기술하고, 공간적 비디오 속성은 비디오 스트림 해상도(예를 들어, SQCIF, QCIF, CIF 등)를 기술하며, 품질 비디오 속성은 비디오 스트림 품질 - 통상적으로 신호 대 잡음 메트릭으로 기술됨 - 을 기술한다. 멀티뷰 비디오 코딩이 "Aljoscha Smolic 의 "Introduction to Multiview Video Coding(멀티뷰 비디오 코딩의 개요)"(http://www.chiariglione.org/mpeg/technologies/mp04-mvc/index.htm)에 더 기술되어 있다.

도 16a는 피사체(1612)의 다수의 뷰(1610)의 일 실시예를 나타낸 것이다. 도 16a에서, 상이한 뷰(1616A 내지 1616D)가 오목 반원(1614)에 배열되어 있다. 도 16a에 4개의 상이한 뷰가 예시되어 있지만, 대안의 실시예에서, 더 많거나 더 적은 뷰가 동일하거나 상이한 방식으로 사용 및/또는 배열될 수 있다. 일 실시예에서, 상이한 멀티뷰 응용을 지원하기 위해 상이한 시점(1616A 내지 1616D) 각각에서 상이한 비디오 스트림이 수집된다. 예를 들어, 일 실시예에서, 좌측 시점(1616B)은 2차원 비디오 스트림에 대한 비디오를 수집하는 데 사용된다. 다른 실시예에서, 좌측 시점(1616B) 및 우측 시점(1616C)은 3차원 비디오 스트림에 대한 비디오를 수집하는 데 사용된다. 3차원 비디오 스트림은 또한 스테레오 비디오 스트림(stereo video stream)이라고도 한다. 다른 실시예에서, 좌측' 시점(1616A), 좌측 시점(1616B), 우측 시점(1616C), 및 우측' 시점(1616D)은 자유 시점 비디오 스트림에 대한 비디오를 수집하는 데 사용된다. 이 실시예에서, 자유 시점 비디오 스트림에 대해 4개의 시점이 사용되는 경우, 이 비디오 스트림은 또한 쿼드 비디오 스트림(quad video stream)이라고도 한다. 대안의 실시예에서, 자유 시점 비디오 스트림은 더 많거나 더 적은 시점을 가질 수 있다. 도 16a에 나타낸 바와 같이, 상이한 시점 비디오 스트림이 기타 시점 비디오 스트림으로부터 작성될 수 있다. 예를 들어, 3차원 비디오 스트림이 2차원 비디오 스트림[예를 들어, 좌측 시점(1616B)에서의 비디오 스트림] 및 우측 시점(1616C)으로부터의 비디오 스트림으로부터 작성될 수 있다. 다른 일례로서, 자유 시점 비디오 스트림이 3차원 비디오 스트림을 작성하는 데 사용되는 비디오 스트림[예를 들어, 좌측 시점(1616B)에서의 비디오 스트림 및 우측 시점(1616C)에서의 비디오 스트림]과 좌측' 시점(1616A) 및 우측' 시점(1616D)으로부터의 비디오 스트림으로부터 작성될 수 있다.

도 16b는 MVC 코딩된 비디오 기본 트랙(1670)의 일 실시예를 나타낸 것이다. 도 16b에서, MVC 기본 트랙은 AVC 트랙(1660), 스테레오 뷰 MVC 트랙(1662), 및 쿼드 뷰 MVC 트랙(1664)으로 이루어져 있다. 일 실시예에서, AVC 기본 트랙(1660)은 2차원 비디오 스트림을 나타내고, 스테레오 뷰 MVC 트랙(1662)은 3차원 비디오 스트림을 나타내며, 쿼드 뷰 MVC 트랙(1664)은 자유 시점 비디오 스트림을 나타낸다. AVC 기본 트랙(1660)은 NAL 단위(1650A 내지 1650C)로 이루어져 있다. 각각의 NAL 단위는 비디오 기본 트랙을 다양한 통신 채널 및/또는 저장 매체에 적절한 단위로 분할한 것이다. 스테레오 뷰 MVC 트랙은 NAL 단위(1652A 내지 1652F)를 포함한다. 일 실시예에서, NAL 단위(1652A 내지 1652F) 중 일부는 참조 NAL 단위이고, 다른 NAL 단위는 비디오 데이터를 포함하는 비참조 단위이다. 예를 들어, NAL 단위(1652A, 1652C, 1652E)는, 각각, NAL 단위(1650A 내지 1650C)를 참조한다. 이 실시예에서, NAL 단위(1652A, 1652C, 1652E)는 3차원 비디오 스트림에 대해 사용되는 좌측 시점에 대한 비디오를 나타낸다. 게다가, 이 실시예에서, NAL 단위(1652B, 1652D, 1652F)는 3차원 비디오 스트림에서의 우측 시점에 대해 사용되는 비디오를 나타낸다. 따라서, 이 실시예에서, 스테레오 MVC 트랙(1662)은 AVC 트랙(1660)의 2차원 비디오 스트림을 사용하여 3차원 비디오 스트림을 작성한다. 대안의 실시예에서, 스테레오 뷰 MVC 트랙(1662)은 다른 NAL 단위를 참조하지 않고 그 대신에 각자의 NAL 단위 내의 데이터를 포함하는 NAL 단위(1652A 내지 1652F)를 포함한다.

쿼드 뷰 MVC 트랙(1664)은 NAL 단위(1654A 내지 1654L)로 이루어져 있다. 일 실시예에서, NAL 단위(1654A 내지 1654L) 중 일부는 스테레오 뷰 AVC 트랙(1660) 및/또는 MVC 트랙(1662) 내의 다른 NAL 단위를 참조한다. 예를 들어, 일 실시예에서, NAL 단위(1654A, 1654E, 1654I)는, 각각, AVC 트랙(1660)의 NAL 단위(1650A 내지 1650C)를 참조한다. NAL 단위(1654B, 1654F, 1654J)는, 각각, 스테레오 뷰 MVC 트랙(1662)의 NAL 단위(1652B, 1652D, 1652F)를 참조한다. 다른 실시예에서, NAL 단위(1654A, 1654E, 1654I)는, 각각, 스테레오 뷰 MVC 트랙(1662)의 1652A, 1652C, 및 1652E를 참조한다. 이 실시예에서, NAL 단위(1652A, 1652E, 1652I)는 스테레오 뷰 MVC 트랙(1662)의 좌측 시점을 참조한다.

NAL 단위(1652B, 1652F, 1652J)는 스테레오 뷰 MVC 트랙(1662)의 우측 시점을 참조한다. NAL 단위(1652C, 1652G, 1652K)는 좌측' 시점[예를 들어, 상기 도 16a의 좌측' 시점(1616A)]에 대한 비디오 데이터를 포함하고, NAL 단위(1652D, 1652H, 1652L)는 우측' 시점[예를 들어, 상기 도 16d의 우측' 시점(1616D)]에 대한 비디오 데이터를 포함한다. 대안의 실시예에서, 스테레오 뷰 MVC 트랙(1662)은 다른 NAL 단위를 참조하지 않고 그 대신에 각자의 NAL 단위 내의 데이터를 포함하는 NAL 단위(1652A 내지 1652F)를 포함한다.

도 16c는 MVC 코딩된 비디오 기본 트랙(1670)의 일 실시예를 나타낸 것이다. 도 16c에서, MVC 기본 트랙(1670)이 개별 프레임(1602A 내지 1602D)으로 분할되어 있다. 각각의 프레임(1602A 내지 1602D)은 하나 이상의 NAL(network abstraction layer, 네트워크 추상화 계층) 단위(1650A 내지 1650D, 1652A 내지 1652D, 1654A 내지 1654D)를 포함한다. NAL 단위는 비디오 기본 트랙을 다양한 통신 채널 및/또는 저장 매체에 적절한 단위로 분할한 것이다. 각각의 NAL 단위 집합(1650A 내지 1650D, 1652A 내지 1652D, 1654A 내지 1654D)은 상이한 시점 비디오 스트림에 대해 사용될 수 있다. 예를 들어, 예시로서, NAL 단위(1650A 내지 1650D)는 단일 시점비디오와 같은 초기 시점 미디어 스트림을 포함한다. 이 단일 시점 비디오는 주어진 피사체의 2차원 비디오를 전달하는 데 사용된다.

NAL 단위(1650A 내지 1650D 및 1652A 내지 1652D)를 조합하면 제2 시점 비디오를 갖는 상이한 비디오 스트림(예를 들어, 3차원 비디오 스트림)이 얻어진다.

3개의 NAL 단위 집합(1650A 내지 1650D, 1652A 내지 1652D, 1654A 내지 1654D)을 사용하면 제3 시점 비디오 스트림(예를 들어, 자유 시점 비디오에 대한 비디오 스트림들 중 하나의 비디오 스트림)이 산출된다. 도 16c에 나타낸 바와 같이, NAL 단위(1650A 내지 1650D, 1652A 내지 1652D, 1654A 내지 1654D)로부터의 비디오 스트림은 제3 시점 비디오를 제공한다.

따라서, MVC 기본 트랙(1670)은 하나의 비디오 기본 트랙으로부터 적어도 3개의 개별 비디오 스트림을 산출한다. 이것은 하나의 기본 코딩된 비디오 트랙이 상이한 응용 또는 동작 지점에 대해 사용될 수 있게 해준다. 예를 들어, 예시로서, 제1 시점 비디오(1660)는 멀티뷰 비디오를 지원하지 않는 장치로 비디오를 스트리밍하는 데 사용될 수 있고, 제2 해상도 비디오(1662)는 비디오를 스테레오 뷰어(3차원 디스플레이 등)로 스트리밍하는 데 사용될 수 있는 반면, 제3 해상도 비디오(1664)는 자유 시점 비디오를 지원하는 장치(연구용 특수 디스플레이 등)로 비디오를 스트리밍하는 데 사용될 것이다.

MVC 코딩된 기본 트랙이 다수의 시점 및 뷰의 조합에 대한 비디오 스트림을 포함하기 때문에, 각각의 비디오 스트림에 대한 트랙이 하나의 트랙 또는 개별 트랙으로서 저장될 수 있다. 개별 트랙에 대해, 어쩌면 많은 수의 개별 트랙을 관리하는 오버헤드가 관리하기 어려울 정도로 된다. 예를 들어, 예시로서, L개의 뷰가 있고, 평균하여 각각의 뷰에 대해 N개의 상이한 시점이 있는 경우, 하나의 MVC 기본 트랙에 최대 L*N개의 상이한 비디오 스트림이 있을 수 있다. 비디오 디코더에 피드할 스트림을 조립하는 것은 샘플당 L*N개의 논리적 첨부 동작을 의미한다. 한편, 도 16a에 나타낸 바와 같이, 다수의 비디오 스트림이 하나의 기본 트랙에 유지되는 경우, 비디오 스트림의 부분집합을 추출하기 위해, 특정의 비디오 스트림 부분집합에 대한 관련 데이터를 찾아내기 위해 MVC 코딩된 기본 트랙 내의 각각의 비디오 스트림이 탐색되어야만 한다. 이것은 특정의 비디오 스트림 부분집합을 확인하기 위해 L*N개의 비디오 스트림에 대한 모든 데이터가 액세스되어야만 한다는 것을 의미한다. 게다가, MVC 코딩된 기본 트랙이 통상적으로 ISO 파일에 저장되어 있기 때문에, 하나의 비디오 MVC 기본 트랙에 대한 데이터가 연속적으로 프레임에 저장된다. 따라서, MVC 기본 트랙에 대한 프레임이 모든 데이터를 포함하고, 디코더는 모든 데이터를 읽고 사용하지 않는 데이터를 버려야만 한다.

결국, 하나의 MVC 기본 트랙(또는 각각이 확장가능 콘텐츠를 포함하는 적어도 일련의 MVC 기본 트랙)을 사용하는 것이 바람직한데, 그 이유는 비디오 디코더가 L*N개의 비디오 스트림을 처리할 필요가 없기 때문이다. 그렇지만, 비디오 스트림들 중 하나의 비디오 스트림이 별개의 연속적인 스트림으로서 이용가능한 것이 유용할 때가 있다. 전체 MVC 기본 트랙을 탐색하지 않고 MVC 기본 트랙으로부터 이용가능한 비디오 스트림을 추출하는 메커니즘이 필요하다. 하나의 MVC 기본 트랙에서 이용가능한 다수의 비디오 스트림을 추출하기 위해 한 형태의 비디오 트랙(예를 들어, 추출기 트랙)이 사용될 수 있다. 각각의 추출기 트랙은 제안된 동작 지점(예를 들어, 멀티뷰 응용)을 나타내고, MVC 기본 트랙 내의 나머지 데이터는 무시하면서 MVC 기본 트랙으로부터 그 동작 지점에 대해 필요한 데이터(예를 들어, 얻어지는 비디오 스트림)를 어떻게 조립할지에 관한 정보를 포함한다. 상세하게는, 특정의 멀티뷰 응용(예를 들어, 2차원 비디오, 3차원 비디오, 자유 시점 비디오 등)의 고유의 조합에 대해 추출기 트랙이 사용될 수 있다. 예시적인 실시예에서, 추출기 트랙이 멀티뷰 코딩된 비디오(일정 기간에 걸쳐 미리 정해진 때에 미리 정해진 순서로 제시되는 일련의 관련 이미지 등)에 대해 사용되고 있지만, 대안의 실시예는 다른 형태의 멀티뷰 미디어(예를 들어, 오디오, 장면 등)에 대해 추출기 트랙을 사용할 수 있다.

도 16c는 또한 집계기 NAL 단위(1682A 및 1682B)를 이용하는 MVC 코딩된 비디오 기본 트랙의 일 실시예를 나타내고 있다. 도 16c에서, MVC 기본 트랙(1670)이 개별 프레임(1602A 내지 1602D)으로 분할되어 있다. 각각의 프레임(1602A 내지 1602D)은 하나 이상의 NAL 단위(1650A 내지 1650D, 1652A 내지 1652D, 1654A 내지 1654D)를 포함한다. NAL 단위는 비디오 기본 트랙을 다양한 통신 채널 및/또는 저장 매체에 적절한 단위로 분할한 것이다. 각각의 NAL 단위 집합(1650A 내지 1650D, 1652A 내지 1652D, 1654A 내지 1654D)은 상이한 비디오 스트림에 대해 사용될 수 있다. 비디오 스트림은 시점, 뷰 등에서 상이할 수 있다. 예를 들어, 예시로서, NAL 단위(1650A 내지 1650D)는 2차원 비디오 스트림 등을 포함한다. 게다가, 도 16c에서, NAL 단위(1650A 내지 1650D, 1652A 내지 1652D, 1654A 내지 1654D) 중 일부는 집계기 NAL 단위(1662A 및 1662B)를 사용하여 구성되어 있다. 집계기 NAL 단위(1662A 내지 1662C)는 NAL 단위를 NAL 단위 그룹으로 구성하는 데 사용된다.

일 실시예에서, 집계기 NAL 단위(1690A 및 1690B)는 하나 이상의 NAL 단위, 길이, 유형 및 추가 바이트를 포함한다. 길이는 초기 NAL 단위의 길이이다. 유형은 NAL 단위의 유형이다. 추가 바이트는 초기 NAL 단위 이후의 추가 바이트를 나타내고, 집계된 NAL 단위 내의 부가의 NAL 단위에 대한 오프셋으로서 사용된다.

일 실시예에서, 집계기 NAL 단위(1692A)는 NAL 단위(1650A, 1652A)를 포함한다. 이 실시예에서, 집계기 NAL 단위(1692A)는 비디오 프레임(1602A)의 일부를 포함하고, 제1 및 제2 시점 비디오의 추출을 지원한다. 다른 대안으로서, 다른 실시예에서, 집계기 NAL 단위(1682B)는 전체 프레임에 대한 NAL 단위, 즉 NAL 단위(1650B, 1652B, 1652C)를 포함한다. 이 대안의 실시예에서, 집계기 NAL 단위(1682B)는 제1, 제2 및 제3 시점 비디오의 추출을 지원한다.

도 17a는 MVC 코딩된 기본 트랙(1705)으로부터 비디오 스트림을 추출하는 데 사용되는 추출기 트랙의 일 실시예를 나타낸 블록도이다. 도 17a에서, MVC 기본 트랙(1705)은 비디오 프레임(1602A, 1602B)을 포함하고, 각각의 비디오 프레임(1602A, 1602B)은 상이한 비디오 스트림에 대해 사용될 수 있는 NAL 단위(1650A 및 1650B, 1652A 및 1652B, 1654A 및 1654B)를 포함한다. 도 16a와 유사하게, 제1 해상도 비디오 스트림은 NAL 단위(1650A 및 1650B)(예를 들어, 2차원 비디오 스트림)로부터 조립되고, 제2 해상도 비디오 스트림은 NAL 단위(1650A 및 1650B, 1652A 및 1652B)(예를 들어, 3차원 비디오 스트림)로부터 조립되는 반면, 제3 비디오 스트림은 NAL 단위(1650A 및 1650B, 1652A 및 1652B, 1654A 및 1654B)(예를 들어, 자유 시점 비디오 스트림)로부터 조립될 수 있다. 도 16a와 달리, 추출 트랙(1700, 1710)은 MVC 기본 트랙(1705)에서 이용가능한 상이한 비디오 스트림을 추출하는 데 사용된다. 추출기 트랙(1700)은 AVC 및 MVC 기본 트랙과 같이 구조화되어 있는데, 그 이유는 추출기 트랙(1700)이 일련의 NAL 단위이기 때문이다. 추출기 트랙 NAL 단위는 다른 NAL 단위와 혼합될 수 있다. 게다가, 추출기 트랙(1700)은 추출기 트랙(1700)을 MVC 기본 트랙(1705)에 링크시키는 'mvc'라는 트랙 참조를 가진다. 그에 부가하여, 추출기 트랙은 MVC 기본 트랙(1705)과 동일한 트랙 유형을 가진다.

예를 들어, 예시로서, 추출 트랙(1700)은 MVC 기본 트랙(1705) 내의 NAL 단위(1650A 및 1650B, 1652A 및 1652B)를 각각 참조하는 NAL 단위(1704A 및 1704B, 1706A 및 1706B)를 포함한다. NAL 단위(1704A 및 1704B, 1706A 및 1706B)는 MVC 기본 트랙(1705)에서 시간적으로 정렬된 NAL 단위를 찾고 그 NAL 단위의 전부 또는 일부를 추출하라고 비디오 디코더에 명령한다. 예를 들어, 예시로서, NAL 단위(1704A)는 NAL 단위(1650A)를 찾고 NAL 단위(1650A)의 일부 또는 전부를 추출하라고 디코더에 명령한다. NAL 단위(1704A)가 NAL 단위(1650A)의 일부를 추출하라고 디코더에 명령하는 경우, NAL 단위(1704A)는 검색할 바이트의 수 및 NAL 단위(1650A)에 대한 오프셋에 관한 명령어를 포함한다. MVC 기본 트랙 NAL 단위의 일부만을 검색하는 것은 MVC 기본 트랙(1705)으로부터 다양한 레벨의 비디오 품질을 추출하는 일 실시예이다.

게다가, 일정한 품질 레벨을 유지하기 위해, 추출기 트랙(1700) NAL 단위는 기본 트랙 NAL 단위의 상이한 양을 추출할 수 있다. 예시적인 실시예에서, 추출기 트랙은 일정한 비디오 품질을 유지하기 위해 정확한 절단 지점을 계산한다. 예를 들어, 예시로서, NAL 단위(1704A)는 NAL 단위(1650A)로부터 더 많이 추출하라고 디코더에 명령할 수 있는 반면, NAL 단위(1704B)는 전체 비디오 시점을 유지하기 위해 NAL 단위(1650B)로부터 더 적게 추출하라고 명령할 수 있다. 추출 트랙(1700)이 NAL 단위(1650A 및 1650B, 1652A 및 1652B)를 참조하기 때문에, 추출 트랙(1700)은 제2 시점 비디오 스트림을 나타낸다. 따라서, 비디오 디코더는, 전체 MVC 기본 트랙(1705)을 처리할 필요없이, 추출 트랙(1700)을 판독함으로써 제2 시점 비디오 스트림을 추출할 수 있다.

추출 트랙(1700)과 유사하게, 추출 트랙(1710)은 NAL 단위(1714A 및 1714B)를 포함한다. 그렇지만, NAL 단위(1714A 및 1714B)가 MVC 기본 트랙(1705) 내의 대응하는 NAL 단위를 참조하는 것 대신에, NAL 단위(1714A 및 1714B)는 NAL 단위(1650A 및 1650B)의 적어도 일부분의 사본이다. 따라서, 추출 트랙(1710)은 이 비디오 스트림에 필요한 NAL 단위를 포함함으로써 제1 시점 비디오 스트림을 나타낸다. 게다가, 추출기 트랙(1700, 1710)은 비디오 파일 내의 다른 트랙처럼 힌팅될 수 있다. 그렇지만, 참조하는 추출기 NAL 단위를 포함하는 비디오 트랙(들)은 참조 NAL 단위에 포함된 바이트를 추출해야만 한다. 예를 들어, 예시로서, 참조하는 추출기 NAL 단위(1704A 및 1704B)를 포함하는 비디오 트랙은 참조되는 기본 NAL 단위(1650A 및 1650B)로부터 바이트를 추출해야만 한다.

게다가, 일 실시예에서, 추출 트랙(1700, 1710)은 참조 NAL 단위도 아니고 기본 트랙으로부터의 NAL 단위의 사본도 아닌 NAL 단위를 더 포함할 수 있다. 이 실시예에서, 이들 NAL 단위는 MVC 기본 트랙(1705)과 상이한 비디오 기본 트랙의 분할이다. 이 실시예는 MVC 기본 트랙(1705)으로부터 추출된 NAL 단위를 상이한 NAL 단위와 결합하여 제2 비디오 스트림을 형성하는 데 사용될 수 있다. 예를 들어, 예시로서, 하나의 추출 트랙은 2차원 MVC 기본 트랙으로부터 추출된 트랙을 부가의 NAL 단위와 결합하여 3차원 비디오 스트림을 나타낸다. 따라서, 추출 트랙은 2차원 비디오 스트림으로부터 3차원 비디오 스트림을 작성하는 데 사용될 수 있다. 그에 부가하여, 다른 추출 트랙은 2차원 MVC 기본 트랙으로부터 추출된 트랙을 부가의 NAL 단위와 결합하여 자유 시점 비디오 스트림을 나타낸다. 이 일례는 추출기 트랙을 사용하여, 단일 뷰 비디오 스트림으로부터 멀티뷰 비디오 스트림을 작성하는 것을 설명한다. 따라서, 추출기 트랙은 멀티뷰 비디오 스트림으로부터 단일 뷰 비디오 스트림을 추출하는 데 또는 단일 뷰 비디오 스트림으로부터 멀티뷰 비디오 스트림을 작성하는 데 사용될 수 있다.

도 17b는 집계기 네트워크 추상화 계층 단위를 포함하는 MVC 코딩된 기본 트랙으로부터 비디오 스트림을 추출하는 데 사용되는 추출기 트랙의 일 실시예를 나타낸 블록도이다. 도 17a와 유사하게, MVC 기본 트랙(1670)은 비디오 프레임(1602A, 1602B)을 포함하고, 각각의 비디오 프레임(1602A, 1602B)은 상이한 비디오 스트림에 대해 사용될 수 있는 NAL 단위(1650A 및 1650B, 1652A 및 1652B, 1654A 및 1654B)를 포함한다. MVC 기본 트랙(1755)은 집계기 NAL 단위(1660A 및 1660B)를 더 포함한다. 집계기 NAL 단위는 NAL 단위(1650A, 1652A)를 그룹화하고, 집계기 NAL 단위(1660B)는 NAL 단위(1650B, 1652B)를 그룹화한다. 도 16a와 유사하게, 제1 해상도 비디오 스트림은 NAL 단위(1650A 및 1650B)(예를 들어, 2차원 비디오 스트림)로부터 조립되고, 제2 해상도 비디오 스트림은 NAL 단위(1650A 및 1650B, 1652A 및 1652B)(예를 들어, 3차원 비디오 스트림)로부터 조립되는 반면, 제3 비디오 스트림은 NAL 단위(1650A 및 1650B, 1652A 및 1652B, 1654A 및 1654B)(예를 들어, 자유 시점 비디오 스트림)로부터 조립될 수 있다. 도 17a와 달리, 추출 트랙(1700, 1760)은 MVC 기본 트랙(1705)에서 이용가능한 상이한 비디오 스트림을 추출하는 데 사용된다. 추출기 트랙(1700)은 AVC 및 MVC 기본 트랙과 같이 구조화되어 있는데, 그 이유는 추출기 트랙(1700)이 일련의 NAL 단위이기 때문이다. 추출기 트랙 NAL 단위는 다른 NAL 단위와 혼합될 수 있다. 게다가, 추출기 트랙(1700)은 추출기 트랙(1700)을 MVC 기본 트랙(1705)에 링크시키는 'mvc'라는 트랙 참조를 가진다. 그에 부가하여, 추출기 트랙은 MVC 기본 트랙(1705)과 동일한 트랙 유형을 가진다. 그에 부가하여, 추출기 트랙은 집계기 NAL 단위를 참조하거나 그로부터 복사할 수 있다.

일 실시예에서, 추출 트랙(1750)은 NAL 단위(1754A 및 1754B, 1756A 및 1756B)를 사용하여 집계기 NAL 단위(1660A 및 1660B)를 참조한다. 집계기 NAL 단위(1660A 및 1660B)를 참조함으로써, 추출 트랙(1750)은 집계기 NAL 단위를 포함하는 모든 NAL 단위를 참조한다. 다른 실시예(도시 생략)에서, 추출 트랙(1750)의 일부인 NAL 단위는 집계 NAL 단위 내의 특정의 NAL 단위를 참조할 수 있다. 특정의 단위를 참조함으로써, 참조하는 NAL 단위가 특정의 NAL 단위는 참조하지만 집계기 NAL 단위의 일부인 다른 NAL 단위는 참조하지 않는다. 도 17a와 유사하게, NAL 단위(1754A 및 1754B)는 단일 NAL 단위를 참조하는 NAL 단위와 유사한 속성을 가진다. 예를 들어, 예시로서, 추출 트랙(1750)은 MVC 기본 트랙(1705) 내의 집계기 NAL 단위(1660A 및 1660B)를 참조하는 NAL 단위(1754A 및 1754B, 1756A 및 1756B)를 포함한다. NAL 단위(1754A 및 1754B)는 MVC 기본 트랙(1705)에서 시간적으로 정렬된 NAL 단위를 찾고 그 집계된 NAL 단위의 전부 또는 일부를 추출하라고 비디오 디코더에 명령한다. 예를 들어, 예시로서, NAL 단위(1754A)는 집계기 NAL 단위(1660A)를 찾고 집계기 NAL 단위(1660A)를 포함하는 일부 또는 모든 NAL 단위를 추출하라고 디코더에 명령한다. NAL 단위(1754A)가 집계기 NAL 단위(1660A)의 일부를 추출하라고 디코더에 명령하는 경우, NAL 단위(1754A)는 검색할 바이트의 수 및 집계기 NAL 단위(1660A)에 대한 오프셋에 관한 명령어를 포함한다. MVC 기본 트랙 NAL 단위의 일부만을 검색하는 것은 MVC 기본 트랙(1705)으로부터 다양한 레벨의 비디오 품질을 추출하는 일 실시예이다. 게다가, 일정한 품질 레벨을 유지하기 위해, 추출기 트랙(1750) NAL 단위는 기본 트랙 NAL 단위의 상이한 양을 추출할 수 있다. 예시적인 실시예에서, 추출기 트랙은 일정한 비디오 품질을 유지하기 위해 정확한 절단 지점을 계산한다.

추출 트랙(1750)과 유사하게, 추출 트랙(1760)은 NAL 단위(1764A 및 1764B)를 포함한다. 그렇지만, NAL 단위(1764A 및 1764B)가 MVC 기본 트랙(1705) 내의 대응하는 집계기 NAL 단위를 참조하는 것 대신에, NAL 단위(1764A 및 1764B)는 NAL 단위(1650A 및 1650B)의 적어도 일부분의 사본이다. 게다가, 추출기 트랙(1750, 1760)은 비디오 파일 내의 다른 트랙처럼 힌팅될 수 있다.

도 18은 추출기 트랙을 포함하는 비디오 파일의 일 실시예를 나타낸 블록도이다. 도 18에서, 비디오 파일(1800)은 영화 헤더(1802), 비디오 메타데이터(1804 내지 1810), 및 데이터(1812)를 포함한다. 비디오 메타데이터(1804 내지 1810)는 오디오 트랙(1804) 및 비디오 트랙(1806 내지 1810)을 포함한다. 각각의 트랙(1804 내지 1810)은 비디오 파일(1800)에서 어느 비디오/오디오 트랙이 이용가능한지를 기술한다. 예를 들어, 비디오 파일(1800)에서 3가지 유형의 비디오 - 2차원 AVC 비디오 트랙(1806), 3차원 MVC 비디오 트랙(1808) 및 자유 비디오 시점 MVC 비디오 트랙(1810) - 가 이용가능하다. 비디오 디코더는 비디오 파일(1800) 내에서 어느 유형의 비디오/오디오 스트림이 이용가능한지를 결정하기 위해 메타데이터(1804 내지 1810)를 쿼리할 수 있다. 데이터(1812)는 비디오 프레임[예를 들어, 도 16a에 나타낸 바와 같이, NAL 단위(1604A 내지 1604D) 등], 오디오 프레임 및 추출기 트랙을 포함한다.

도 19는 MVC 기본 트랙을 갖는 추출기 트랙을 발생하고 사용하는 시스템의 일 실시예를 나타낸 블록도이다. 도 19에서, 기본 트랙(들) 생성기(1902)는 MVC 기본 트랙을 포함하는 미디어를 생성한다. 기본 트랙이 저장 장치(1910)에 저장된다. 그에 부가하여, MVC 추출기 트랙(들) 생성기(1916)는 기본 트랙(들) 생성기(1902)로부터의 기본 트랙(들)을 사용하고 각각의 동작 지점에 대한 추출기 트랙을 생성한다. 각각의 동작 지점에 대한 추출기 트랙은 통상적으로 그의 대응하는 기본 트랙으로부터 도출된다. 동작 지점은 시점 및 뷰에 대한 고유한 비디오 조합이다. 예를 들어, 예시로서, MVC 추출기 트랙(들) 생성기(1916)는 2차원 비디오 스트림, 3차원 비디오 스트림, 자유 시점 비디오 스트림, 기타인 비디오 스트림에 대한 추출기 트랙을 생성할 수 있다. 일반적으로, MVC 추출기 트랙(들) 생성기(1916)는 입력된 MVC 기본 트랙(들)에 의해 지원되는 임의의 비디오 스트림에 대한 추출기 트랙을 생성할 수 있다. 일 실시예에서, 생성된 MVC 추출기 트랙이 저장 장치(1910)에 저장되지만, 대안의 실시예에서, 추출기 트랙이 대응하는 MVC 기본 트랙과 분리되어 저장될 수 있다. 추출기 트랙이 모든 가능한 동작 지점에 대해서보다는 타당한 동작 지점의 부분집합에 대해서만 존재할 수 있고 사용자(예를 들어, 클라이언트 시스템)가 이 부분집합으로부터 사용가능한 동작 지점을 선택할 수 있다는 것을 잘 알 것이다. 다른 대안으로서, MVC 추출기 트랙(들)(1916)은, 비디오 스트림의 불필요하거나 중복적인 부분을 제거하면서, 2개 이상의 비디오 스트림으로부터 단일 MVC 트랙을 형성할 수 있다. 예를 들어, 예시로서, MVC 추출기 트랙(들)(1916)은 2차원 비디오 스트림 및 3차원 비디오 스트림으로부터 MVC 기본 트랙을 포함하는 MVC 미디어를 생성할 수 있다. MVC 추출기 트랙(들)(1916)은 2개의 비디오 스트림을 처리하여 2차원 기본 트랙 및 3차원 비디오 스트림에 대한 추출기 트랙으로 만든다.

생성된 MVC 기본 및 추출기 트랙은 각종의 방식으로 사용될 수 있다. 일 실시예에서, 로컬 클라이언트(들)(1904)는 MVC 기본 및 추출기 트랙(들)에서 어느 비디오 스트림이 이용가능한지를 판정하기 위해 저장 장치(1910)로부터 MVC 기본 및 추출기 트랙(들)을 판독한다. 이용가능한 비디오 스트림에 기초하여, 로컬 클라이언트(들)는 대응하는 추출기 트랙을 사용하여 MVC 기본 트랙(들)으로부터 원하는 비디오 스트림을 추출한다. 일 실시예에서, 로컬 클라이언트가 기본 및 추출기 트랙을 판독하여 처리할 수 있는 저장 장치(1910)에 로컬인 머신 상에서 실행 중인 프로그램의 단일 인스턴스이지만, 대안의 실시예에서, 로컬 클라이언트(들)는 동일한 유형의 프로그램의 2개 이상의 인스턴스일 수 있다. 로컬 클라이언트(들)에 의한 MVC 기본 및 추출기 트랙(들)의 처리에 대해 이하에서 도 21과 관련하여 더 기술된다.

대안의 실시예에서, 전송 서버(들)(1906)는 원격 클라이언트(1908A 및 1908B)에 대한 MVC 기본 및 추출기 트랙(들)을 처리한다. 이러한 클라이언트-서버 구성에서, 원격 클라이언트(1908A 및 1908B)는 MVC 기본 및 추출기 트랙(들)으로부터 이용가능한 비디오에 대한 요청을 전송 서버(들)(1906)로 전송한다. 클라이언트-서버 실시예들 중 하나의 실시예에서, 원격 클라이언트(1908A 및 1908B)는, 전송 서버(들)(1906)로부터 직접 비디오 스트림을 요청함으로써, 비디오를 요청한다. 그에 응답하여, 전송 서버(들)(1906)는 대응하는 추출기 트랙(들)에 액세스하고, 추출기 트랙(들)을 사용하여 MVC 기본 트랙(들)으로부터 요청된 비디오 스트림을 검색한다. 전송 서버(들)(1906)는 비디오 스트림을 조립하고 비디오 스트림을 다시 요청측 원격 클라이언트로 전송한다. 이러한 클라이언트-서버 실시예에 대해서는 이하에서 도 22와 관련하여 추가로 기술된다. 이 방식에서, 전송 서버(들)(1906)는, 전체 MVC 기본 트랙(들)을 분석하기보다는, 요청측 원격 클라이언트(1908A 및 1908B)에 의해 사용되는 동작 지점의 일부인 기본 트랙의 일부분만을 검색하여 전송하기 위해 추출기 트랙을 사용한다.

대안의 클라이언트-서버 실시예에서, 원격 클라이언트(1908A 및 1908B)는 전송 서버(들)(1906)로부터 이용할 수 있는 가능한 비디오 스트림을 요청한다. 그에 응답하여, 전송 서버(1906)는 이용가능한 비디오 스트림(들)의 목록을 요청측 원격 클라이언트(1908A 및 1908B)로 반환한다. 일 실시예에서, 전송 서버(들)(1906)이 메타데이터(1804 내지 1810)를 원격 클라이언트(1908A 및 1908B)로 반환하지만, 대안의 실시예에서, 전송 서버(들)(1906)는 이용가능한 비디오 스트림의 목록을 다른 수단[예를 들어, 간단한 목록, 목록을 포함하는 CGI(common gateway interface) 폼, 기타]으로 반환한다. 원격 클라이언트(1908A 및 1908B)는 전송 서버(들)(1906)에 원하는 비디오 스트림을 요청하고, 전송 서버(들)는 요청된 비디오 스트림을 전송한다. 예시적인 실시예에서, 원격 클라이언트(1908A 및 1908B)는 원하는 비디오 스트림에 대응하는 추출기 트랙을 전송 서버(들)(1906)로부터 요청한다. 추출기 트랙을 수신한 것에 응답하여, 원격 클라이언트(1908A 및 1908B)는 적절한 명령을 전송 서버(들)(1906)로 전송함으로써 비디오 스트림을 요청한다[예를 들어, 원격 클라이언트(1908A 및 1908B)는 HTTP 바이트-요청 등을 사용하여 MVC 기본 트랙(1600)으로부터의 비디오 프레임(1602A 및 1602B)을 요청한다]. 이러한 클라이언트-서버 실시예에 대해서는 이하에서 도 23과 관련하여 추가로 기술된다.

로컬 클라이언트(1904) 및 원격 클라이언트(1908A 및 1908B)에 의해 사용되는 것에 부가하여, MVC 기본 및 추출기 트랙(들)은 AVC 특정 콘텐츠 생성기(1912)에 의해 처리될 수 있다. AVC 특정 콘텐츠 생성기(1912)는, MVC 추출기 트랙에 액세스하고 추출기 트랙을 사용하여 대응하는 MVC 기본 트랙(들)으로부터 AVC 특정 콘텐츠를 조립함으로써, AVC 특정 콘텐츠(예를 들어, 특정의 동작 지점에서의 H.264/AVC 비디오 콘텐츠)를 생성한다. AVC 특정 콘텐츠 생성기(1912)는 AVC 특정 콘텐츠를 저장 장치(1914)에 저장한다. 원격 클라이언트(1908A 및 1908B)는 저장 장치(1914)로부터 AVC 특정 콘텐츠(예를 들어, 특정의 동작 지점에서의 H.264/AVC 비디오 콘텐츠)에 액세스할 수 있다.

도 20은 MVC 기본 트랙으로부터 MVC 추출기 트랙(들)을 발생하는 방법(2000)의 일 실시예의 플로우차트이다. 블록(2002)에서, 방법(2000)은 발생될 동작 지점의 수를 결정한다. 앞서 언급한 바와 같이, 각각의 동작 지점은 동작 지점과 연관된 비디오 속성에 기초하여 하나의 비디오 스트림을 기술한다. 일 실시예에서, 각각의 동작 지점이 고유한 시점 및 뷰의 조합이지만, 대안의 실시예는 더 많은, 더 적은 및/또는 상이한 비디오 속성(예를 들어, 시간적, 공간적, 품질, 비트-깊이, 크로마 서브-샘플링 주파수 등)을 포함하는 동작 지점을 가질 수 있다. 예를 들어, 예시로서, 뷰는 이용가능한 상이한 뷰(예를 들어, 2차원, 3차원, 자유 시점 등)를 기술하고, 시점은 뷰들 중 하나의 뷰를 만드는 데 사용되는 개별 비디오 트랙이다(예를 들어, 상기 도 16에서 나타낸 바와 같은 좌측, 좌측', 우측 및 우측' 시점). 다른 일례로서, 예시로서, 시간적 비디오 속성은 비디오 스트림 프레임 레이트(예를 들어, 8, 15, 30 fps 등)를 기술하고, 공간적 비디오 속성은 비디오 스트림 해상도(예를 들어, SQCIF, QCIF, CIF 등)를 기술하며, 품질 비디오 속성은 비디오 스트림 품질 - 통상적으로 신호 대 잡음 메트릭으로 기술됨 - 을 기술한다.

블록(2004)에서, 방법(2000)은 적어도 동작 지점의 부분집합에 대한 MVC 기본 트랙에 대응하는 추출기 트랙을 코딩한다. 방법(2000)은 부분집합 내의 동작 지점에 대해 하나의 추출기 트랙을 생성한다. 이상에서 기술한 바와 같이, 추출기 트랙은 MVC 기본 트랙 내의 NAL 단위를 참조하거나 기본 트랙 내의 NAL 단위의 사본인 NAL 단위를 포함한다. 블록(2006)에서, 방법(2000)은 추출기 트랙(들)을 저장한다. 그에 부가하여, 방법(2000)은 비디오 파일(300)을 중계(relay out)함으로써 저장된 추출기 트랙을 포함하는 비디오 파일(300)의 일부를 최적화할 수 있다. 이것은 NAL 단위의 사본을 포함하는 추출기 트랙에 대해 특히 유용하다.

도 21은 대응하는 추출기 트랙을 사용하여 MVC 기본 트랙으로부터 비디오 스트림을 검색하는 방법(2100)의 일 실시예의 플로우차트이다. 블록(2102)에서, 방법(2100)은 클라이언트 능력을 판정한다. 클라이언트 능력은 디스플레이 크기, 디스플레이 그래픽 능력, 메모리, 비디오 버퍼, 처리 능력(이들로 제한되지 않음) 등에 의존한다. 예를 들어, 예시로서, 소형 디스플레이 및 저전력 CPU를 갖는 핸드헬드 장치는 2차원 비디오 스트림을 처리할 수 있지만, 더 나은 CPU 및 그래픽 능력을 갖는 데스크톱 컴퓨터는 3차원 비디오 스트림을 처리할 수 있다.

블록(2104)에서, 방법(2100)은 어느 동작 지점이 결정된 클라이언트 능력 및 이용가능한 추출기 트랙과 부합하는지를 나타내는 미디어 추출기 트랙(또는 기타 데이터)을 쿼리함으로써 이용가능한 미디어 스트림을 결정한다. 일 실시예에서, 방법(2100)이 부합을 판정하기 위해 이용가능한 미디어 추출기 트랙을 쿼리하지만, 대안의 실시예에서, 방법(2100)은 상이한 수단[예를 들어, 미디어 메타데이터(1804 내지 1810)를 쿼리하는 것 등]으로 부합을 판정할 수 있다. 예를 들어, 예시로서, 대상 장치가 핸드헬드 장치인 경우, 방법(2100)은 이용가능한 2차원 미디어 스트림(예를 들어, 기본 AVC 트랙)이 있는지를 판정한다.

블록(2106)에서, 방법(2100)은 클라이언트 능력과 부합하는 적절한 추출기 트랙을 선택한다. 예를 들어, 예시로서, 클라이언트가 3차원 비디오 지원을 갖는 데스크톱 컴퓨터인 경우, 방법(2100)은 2차원 비디오 스트림보다는 3차원 비디오 스트림을 선택할 것이다. 블록(2108)에서, 방법(2100)은 선택된 미디어 스트림과 연관된 추출기 트랙에 액세스한다.

블록(2110)에서, 방법(2100)은 추출기 트랙을 사용하여 추출기 트랙과 연관된 비디오 스트림을 검색한다. 방법(2100)은 (i) 추출기 트랙이 기본 트랙 NAL 단위로부터의 비디오 데이터를 추출기 NAL 단위로 복사한 경우, NAL 단위 내의 데이터를 판독하는 것 또는 (ii) 추출기 트랙 NAL 단위를 MVC 기본 트랙에 포함된 비디오 스트림에 대한 데이터에 대한 참조로서 사용하는 것에 의해, 추출기 트랙을 사용하여 비디오 스트림을 검색한다. 이들 유형의 추출기 트랙 중 어느 하나는 방법(2100)이 MVC 코딩된 기본 트랙으로부터 비디오 스트림을 검색할 수 있게 해준다. 예를 들어, 예시로서, 참조하는 추출기 트랙 NAL 단위는 방법(2100)이 (i) MVC 기본 트랙에서 적절한 NAL 단위의 위치, (ii) 참조된 NAL 단위로부터의 오프셋, 및 (iii) 참조된 NAL 단위로부터 복사할 바이트의 수를 결정하기 위한 정보를 포함하고 있다.

도 22는 원격 클라이언트에 대한 전송 서버에 의해 MVC 기본 트랙으로부터 미디어 스트림을 검색하는 방법(2200)의 일 실시예의 플로우차트이다. 블록(2202)에서, 방법(2200)은 미디어 스트림 요청을 수신한다. 일 실시예에서, 미디어 스트림 요청이 HTTP 프로토콜에 의할 수 있지만, 대안의 실시예는 기술 분야에 공지된 다른 프로토콜(예를 들어, RTP, RTSP 등)을 사용할 수 있다. 블록(2204)에서, 방법(2200)은 요청된 미디어 스트림에 대응하는 추출기 트랙을 선택한다. 예를 들어, 예시로서, 원격 클라이언트가 자유 시점 비디오 스트림을 요청한 경우, 방법(2200)은 그 미디어 스트림에 대응하는 추출기 트랙을 선택한다.

블록(2206)에서, 방법(2200)은 선택된 추출기 트랙에 기초하여 미디어 스트림을 전송한다. 예를 들어, 예시로서, 방법(2200)은 블록(2110)에 기술된 바와 같이 추출기를 사용하여 미디어 스트림을 조립하고, 얻어진 비디오 스트림을 전송한다.

도 23은 원격 클라이언트가 추출기 트랙을 사용하여 미디어 스트림을 요청하는 경우 원격 클라이언트에 대한 전송 서버에 의해 MVC 기본 트랙으로부터 미디어 스트림을 검색하는 방법(2300)의 일 실시예의 플로우차트이다. 방법(2300)은, 비디오 스트림을 기술하는 상세 정보가 전송 서버 대신에 원격 클라이언트에 의해 처리된다는 점에서, 방법(2200)과 다르다. 도 23에서, 원격 클라이언트는 추출기 트랙을 사용하여 MVC 기본 트랙으로부터 비디오 스트림을 추출한다. 블록(2302)에서, 방법(2300)은 MVC 기본 트랙으로부터 이용가능한 비디오 스트림에 대한 요청을 수신한다. 그에 응답하여, 방법(2300)은, 블록(2304)에서, MVC 기본 트랙 비디오 메타데이터를 전송한다. 일 실시예에서, 방법(2300)이 도 18에 나타낸 바와 같은 비디오 메타데이터(1804 내지 1810)을 전송하지만, 대안의 실시예는 MVC 기본 트랙 내에 코딩되어 있는 이용가능한 비디오 스트림을 기술하는 다른 데이터를 전송할 수 있다(예를 들어, 간단한 비디오 스트림의 목록 등을 전송한다).

블록(2306)에서, 방법(2300)은 추출기 트랙에 대한 요청을 수신한다. 그에 응답하여, 방법(2300)은, 블록(2308)에서, 요청된 추출기 트랙을 요청측 원격 클라이언트로 전송한다. 원격 클라이언트는, 추출기 트랙이 참조하는 NAL 단위를 포함하고 있는 경우, 추출기 트랙을 사용하여 비디오 프레임(예를 들어, 기본 트랙으로부터의 NAL 단위)을 추출할 것이다. 그렇지 않고 추출기 트랙이 NAL 단위의 사본을 포함하고 있는 경우, 원격 클라이언트는 비디오 스트림을 가지며 필요에 따라 비디오 스트림을 처리할 수 있다.

블록(2310)에서, 방법(2300)은 전송된 추출기 트랙에 기초하여 비디오 스트림 프레임 요청을 수신한다. 그에 응답하여, 방법(2300)은, 블록(2312)에서, 요청된 비디오 프레임을 전송한다.

도 24는 MVC 기본 트랙으로부터 추출된 MVC 특정 콘텐츠를 저장하는 방법(2400)의 일 실시예의 플로우차트이다. MVC 특정 콘텐츠는, MVC 특정 콘텐츠가 하나의 비디오 스트림을 포함하는 반면 MVC 기본 트랙이 다수의 비디오 스트림을 포함할 수 있다는 점에서, MVC 기본 트랙과 다르다. 블록(2402)에서, 방법(2400)은 이용가능한 비디오 스트림(들) 중 어느 것이 MVC 특정 콘텐츠로서 저장되어야 하는지를 결정한다. 선택된 비디오 스트림에 기초하여, 방법(2400)은 선택된 비디오 스트림(들)과 연관된 추출기를 결정한다. 블록(2406)에서, 방법(2400)은 연관된 추출기 트랙을 사용하여 비디오 스트림(들)을 추출한다. 예를 들어, 예시로서, 방법(2400)은, 블록(2110)에서와 같이, 비디오 스트림(들)을 추출한다. 비디오 스트림(들)을 추출한 후에, 방법(2400)은 비디오 스트림(들)을 MVC 특정 콘텐츠로서 저장한다.

도 25는 추출기 트랙(2510A 내지 2510C)을 사용하여 MVC 기본 트랙(2502)으로부터 비디오를 발생하는 비디오 처리 장치(2500)의 블록도이다. 도 25에서, 비디오 처리 장치(2500)는 상이한 뷰에 대한 비디오 트랙(2512A 내지 2512C)을 발생하기 위해 추출기 트랙(2510A 내지 2510C)을 사용하여 MVC 기본 트랙(2502)의 비디오 데이터를 처리한다. 일 실시예에서, 비디오 처리 장치(2502)는 추출기 트랙(2510A 내지 2510C) 중 하나 이상을 사용해 MVC 기본 트랙(2502)을 처리하여, 얻어진 비디오 트랙(2512A 내지 2512C)을 발생 및 제시하는 로컬 클라이언트[상기 도 19에 기술된 바와 같은 로컬 클라이언트(1904) 등]이다. 다른 실시예에서, 비디오 처리 장치(2502)는 추출기 트랙(2510A 내지 2510C) 중 하나 이상을 사용해 MVC 기본 트랙(2502)을 처리하여, 얻어진 비디오(2512A 내지 2512C)를 발생하고 하나 이상의 원격 클라이언트로 전송하는 전송 서버이다. 예를 들어, 일 실시예에서, 전송 서버는 상기 도 19에 기술된 것과 같은 전송 서버(1906)이다.

일 실시예에서, MVC 기본 트랙은 영화 헤더(2504), 비디오 메타데이터(2506A 내지 2506C), 및 오디오/비디오 데이터(2508)를 포함한다. 각각의 메타데이터(2506A 내지 2506C)는 MVC 기본 트랙(2502)에서 어느 오디오/비디오 트랙이 이용가능한지를 기술한다. 예를 들어, 일 실시예에서, MVC 기본 트랙은 3가지 유형의 비디오 - 2차원 AVC 비디오 트랙(2506A), 3차원 MVC 비디오 트랙(2506B), 및 자유 비디오 시점 MVC 비디오 트랙(2506C) - 를 가진다. 비디오 처리 장치(2500)는 MVC 기본 트랙(2502) 내에서 어느 유형의 비디오 스트림이 이용가능한지를 결정하기 위해 메타데이터(2506A 내지 2506C)를 쿼리할 수 있다. 데이터(2508)는 비디오 프레임[예를 들어, 도 16a에 나타낸 바와 같이, NAL 단위(1604A 내지 1604D) 등] 및 오디오 프레임을 포함한다. 일 실시예에서, 추출기 트랙(2510A 내지 2510C)이 MVC 기본 트랙(2502)과 분리되어 있지만, 대안의 실시예에서, 추출기 트랙이 MVC 기본 트랙(2502) 내에 포함되어 있다.

이상에서 기술한 바와 같이, MVC 기본 트랙(2502)으로부터 비디오 트랙을 추출하고 제시 및/또는 전송을 위한 그 비디오 트랙을 발생하기 위해 추출기 트랙(2510A 내지 2510C)이 비디오 처리 장치(2500)에 의해 사용된다. 예를 들어, 일 실시예에서, 비디오 처리 장치(2500)는 AVC 비디오 데이터(2512A)를 추출하기 위해 AVC 추출기 트랙(2510A)을 사용하고, 스테레오 뷰 비디오 데이터(2512B)를 추출하기 위해 스테레오 뷰 MVC 추출기 트랙(2510B)을 사용하며, 프리뷰(free view) 비디오 데이터(2512C)를 추출하기 위해 프리뷰 MVC 추출기 트랙(2510C)을 사용한다. 일 실시예에서, 비디오 처리 장치(2500)는, 도 21의 블록(2110)에 기술된 바와 같이, 연관된 추출기 트랙을 사용하여 비디오 트랙을 추출한다.

이하에서 일부 예시적인 힌트 형식이 제공되어 있다. 그렇지만, 본 발명이 시간-기반 데이터의 전송을 제공하기 위해 다양한 유형의 네트워크 프로토콜, 디지털 처리 시스템 아키텍처, 미디어 형식 등에서 이용될 수 있다는 것을 잘 알 것이다.

대안의 실시예

본 발명이 몇개의 실시예 및 예시적인 도면과 관련하여 기술되어 있지만, 당업자라면 본 발명이 기술된 실시예 또는 도면으로 제한되지 않는다는 것을 잘 알 것이다. 상세하게는, 본 발명이 시간 관련 미디어 데이터의 패킷화를 제공하는 몇개의 대안의 실시예에서 실시될 수 있다.

따라서, 본 발명의 방법 및 장치가 첨부된 특허청구범위의 사상 및 범위 내에서 수정 및 변경되어 실시될 수 있다는 것을 잘 알 것이다. 이 설명이 따라서 본 발명을 제한하는 것이 아니라 예시적인 것으로 간주되어야 한다.

부록 A - 패킷화 힌트 샘플 설명

본 발명의 일 실시예에서, 각각의 힌트 트랙은 샘플 설명의 표를 가진다. 힌트 트랙은 통상적으로 하나의 샘플 설명을 가진다. 본 발명의 일 실시예에 따른, 힌트 트랙에 대한 각각의 샘플 설명 항목의 형식이 이하의 표 1에 기술되어 있다.

힌트 트랙 샘플 설명 형식

힌트 트랙 샘플 설명	바이트
샘플 설명 크기	4
데이터 형식	4
예약됨	6
데이터 참조 인덱스	2
최대 패킷 크기	4
부가 데이터 테이블	가변적

패킷화 힌트 헤더 아톰은 다음과 같은 데이터 요소를 포함한다:

필드 설명:

샘플 설명 크기 : 샘플 설명에서의 바이트의 수를 지정하는 32-비트 정수(integer).

데이터 형식 : 샘플 데이터에 저장된 힌트의 형식을 나타내는 32-비트 정수. 상이한 힌트 유형에 대해 상이한 형식이 정의될 수 있다. 이하의 표는 정의된 형식을 열거하고 있다.

예약됨 : 0으로 설정된 6 바이트.

데이터 참조 : 이 샘플 설명을 사용하는 샘플과 연관된 데이터 인덱스의 인덱스를 포함하는 16-비트 정수. 데이터 참조는 데이터 참조 아톰에 저장된다.

최대 패킷 크기 : 이 트랙에서 계산되는 패킷의 최대 크기를 나타내는 32-비트 정수.

부가 데이터 테이블 : 트랙별로 필요한 부가 정보를 포함하는 테이블. 값은 태깅된 항목이다. 요구되는 항목이 없다. 테이블에 항목이 존재하지 않는 경우, 타당한 기본값이 사용될 수 있다.

부가 데이터 테이블 항목에 대한 구조가 표 2에 나타내어져 있다.

부가 데이터 테이블 형식

부가 데이터 테이블	바이트
항목 길이	4
데이터 유형	4
데이터	항목 길이 - 8

부가 데이터 테이블 항목은 다음과 같은 데이터 요소를 포함한다:

필드 설명:

항목 길이 : 바이트 단위로 전체 항목의 길이를 나타내는 32-비트 정수(길이 및 유형 필드에 대한 8 바이트를 포함함).

데이터 유형 : 항목에서의 데이터의 의미를 나타내는 32-비트 정수.

데이터 : 이 항목에 대한 데이터. 데이터의 길이는 테이블의 데이터 길이 필드에 의해 표시된다.

다양한 종류의 데이터 형식 유형 중 몇개에 대해 이하의 데이터 태그가 정의될 수 있다. 필요에 따라 다른 태그가 생성될 수 있다.

이하의 데이터 형식 유형이 정의된다. 필요에 따라 새로운 유형이 정의될 수 있다.

이하의 데이터 태그는 'rtp' 데이터에 대한 일 실시예에서 이용된다.

이하의 데이터 태그는 'rtp' 데이터에 대해 선택적이다.

부록 B - RTP 에 대한 예시적인 힌트 트랙

이 섹션은 QuickTime 영화로부터 RTP를 스트리밍하기 위한 힌트 트랙 형식의 한 일례를 제시한다.

표준 RTP에서, 각각의 미디어 스트림은 통상적으로 개별 RTP 스트림으로서 전송된다. 다중화가 일반적으로 다수의 스트림으로부터의 데이터를 하나의 RTP 세션으로 인터리빙하는 것에 의해서가 아니라 IP의 포트-레벨 다중화를 사용함으로써 달성된다. 따라서, 영화 내의 각각의 미디어 트랙이 연관된 RTP 힌트 트랙을 가져야만 한다. 본 발명의 일 실시예에서, 각각의 힌트 트랙은 스트리밍하고 있는 미디어 트랙에 대한 트랙 역참조(track reference back)를 포함한다.

이 일례에서, 패킷 크기는 힌트 트랙이 생성될 때 결정된다. 따라서, 힌트 트랙에 대한 샘플 설명('코딩' - 이 경우에, 프로토콜임 - 에 특정된 필드를 포함할 수 있는 데이터 구조)에, 선택된 패킷 크기가 표시된다. 본 발명의 한 일례에서, 상이한 패킷 크기 선택을 제공하기 위해 각각의 미디어 트랙에 대해 몇개의 RTP 힌트 트랙이 제공된다. 다른 프로토콜도 역시 파라미터화될 수 있다. 이와 유사하게, RTP 클록에 대한 적절한 시간-스케일이 이하의 샘플 설명에 제공되어 있다.

힌트 트랙이 단일 트랙 참조 선언에 의해 그의 기본 미디어 트랙에 관련되어 있다. (RTP는 단일 RTP 스트림 내에서 미디어의 다중화를 허용하지 않는다.) RTP에 대한 샘플 설명은 이 힌트 트랙이 발생할 최대 패킷 크기를 선언한다. 세션 설명(SAP/SDP) 정보가 트랙 내의 사용자-데이터 아톰에 저장된다.

RTP 힌트 트랙 내의 각각의 샘플은 주어진 때에 방출되어야 하는 일련의 패킷을 송출하라는 명령어를 포함한다. 힌트 트랙 내의 시간은 방출 시간이고, 꼭 연관된 미디어의 미디어 시간일 필요는 없다.

이하의 설명에서, 이 일례의 용어에서 메타 데이터가 아니라 미디어 데이터인 샘플의 내부 구조가 기술되어 있고, 객체로서 구조화될 필요는 없다.

이 일례에서, 각각의 샘플은 2개의 영역 - 패킷을 작성하라는 명령어, 및 그 패킷을 전송할 때 필요한 임의의 부가 데이터(예를 들어, 미디어 데이터의 암호화된 버전) - 을 포함한다.

각각의 RTP 힌트 패킷은 단일 패킷을 전송하기 위한 정보를 포함한다. 일 실시예에서, 미디어 시간을 방출 시간과 분리시키기 위해, 구체적으로는 RTP 타임 스탬프가, RTP 헤더를 형성하는 데 필요한 데이터와 함께, 포함되어 있다. 그렇지만, 대안의 실시예에서, 이것은 그렇지 않다. 다른 헤더 정보가 통상적으로 제공된다. 생성 항목의 테이블이 다음과 같이 구성된다:

다양한 형태의 생성자가 있다. 각각의 생성자는 16 바이트이고, 이는 반복을 비교적 간단하도록 만들어줄 수 있다. 첫번째 바이트는 통합 변별자(union discriminator)이다.

직접 모드(immediate mode)는 페이로드-특정 헤더(예를 들어, RTP H.261 헤더)의 삽입을 허용한다. 미디어가 '암호화되지 않은(in the clear)' 채로 전송되는 힌트 트랙의 경우, mediasample 항목은, 샘플 수, 데이터 오프셋 및 복사할 길이를 제공함으로써, 미디어 트랙으로부터 복사할 바이트를 지정할 수 있다. 비교적 복잡한 경우(예를 들어, 암호화 또는 전방 오류 정정)에, 변환된 데이터가 힌트 샘플 내에 배치될 수 있고, 이어서 hintsample 모드가 사용될 수 있으며, 이는 RTPsample 자체 내의 extradata 필드로부터 제공될 것이다.

본 발명의 한 일례에서, 연속적인 패킷이 미디어 스트림으로부터의 연속적인 바이트를 전송해야 한다는 요구사항이 없다. 예를 들어, H.261의 RTP-표준 패킹에 부합하기 위해, 본 발명의 한 일례에서, 바이트는 한 패킷의 끝에서 또한 다음 패킷의 시작에서(매크로블록 경계가 바이트 내에 속할 때) 전송될 수 있다.

부록 C - 데이터 형식 'rtp'에 대한 패킷화 힌트 샘플 데이터

이 부록은 본 발명의 일 실시예에 따른, 'rtp' 형식에 대한 샘플 데이터의 설명을 제공한다. 'rtp' 형식은 서버가 RTP(Real Time Transport Protocol)를 사용하여 데이터를 전송하는 것으로 가정한다. 이 형식은 서버가 RTP 헤더에 관해 알고 있는 것으로 가정하지만, 서버가 다양한 IETF 초안에 정의된 미디어 헤더를 비롯한 특정의 미디어 헤더에 관해 모든 것을 알고 있을 것을 필요로 하지 않는다.

본 발명의 일 실시예에서, 힌트 트랙 내의 각각의 샘플은 하나 이상의 RTP 패킷을 발생할 것이다. 힌트 트랙 샘플 내의 샘플 데이터 테이블에 있는 각각의 항목은 단일 RTP 패킷에 대응한다. 힌트 트랙 내의 샘플은 미디어 트랙 내의 샘플에 정확히 대응하거나 대응하지 않을 수 있다. 본 발명의 일 실시예에서, 힌트 트랙 샘플 내의 데이터는 바이트 정렬되어 있지만, 32-비트 정렬되어 있지는 않다.

필드 설명:

항목 수 : 테이블 내의 패킷 항목의 수를 나타내는 16-비트 부호 없는 정수. 테이블 내의 각각의 항목은 패킷에 대응한다. 단일 샘플 내의 다수의 항목은 미디어 샘플이 다수의 패킷으로 분할되어야만 한다는 것을 나타낸다. 0의 항목 수를 갖는 샘플이 예약되어 있으며, 만나는 경우, 건너뛰어야만 한다.

패킷 항목 테이블 : 패킷 항목을 포함하는 가변 길이 테이블. 패킷 항목이 이하에 정의되어 있다.

부가 데이터 : 표 3으로 이하에 나타낸 데이터 테이블 내의 항목이 가리키는 데이터를 포함하는 가변 길이 필드

부가 데이터

패킷 항목	바이트
상대 패킷 전송 시간	4
플래그	4
RTP 헤더 정보	2
RTP 시퀀스 번호	2
항목 수	2
데이터 테이블	가변적임

일 실시예에서, 패킷 항목은 이하의 데이터 요소를 포함한다:

필드 설명:

상대 패킷 전송 시간 : 힌트 샘플의 실제 시간에 대한 이 패킷을 전송하는 시간을 힌트 트랙의 시간스케일로 나타내는 32-비트 부호 있는 정수값. 마이너스 값은 패킷이 실제 시간보다 일찍 전송될 것임을 의미하며, 이는 데이터 레이트를 평탄화하는 데 유용하다. 플러스 값은 나중에 패킷을 반복하는 데 유용하다. 각각의 힌트 샘플 트랙 내에서, 각각의 패킷 타임 스탬프는 감소되지 않는다.

플래그 : 이 패킷에 대한 특정 속성을 나타내는 32-비트-필드.

RTP 헤더 정보 필드는 이하의 요소를 포함한다:

RTP 헤더 정보 : RTP 헤더에 설정될 다양한 값을 지정하는 16-비트 정수.

RTP 헤더 정보 필드는 이하의 요소를 포함한다:

모든 미정의 비트(0-1 및 4-7)는 예약되어 있고, 0으로 설정되어 있다. 정의된 비트의 위치는 RTP 헤더에서와 동일한 비트 위치에 있다.

RTP 시퀀스 번호 : 패킷에 대한 RTP 시퀀스 번호를 지정하는 16-비트 정수. RTP 서버는 패킷을 전송하기 전에 랜덤 오프셋을 이 시퀀스 번호에 가산한다. 이 필드는 패킷의 재전송을 가능하게 해준다 - 예를 들어, 동일한 시퀀스 번호 및 상이한 (나중의) 패킷 전송 시간을 사용하여 동일한 패킷이 조립될 수 있다 -. 예를 들어, 최초의 샘플 전송을 놓친 클라이언트(어쩌면 중간에서 영화를 재생하기 시작했음)가 최대 10초 후에 "새로고침"되도록 5분의 지속 기간을 갖는 텍스트 샘플이 매 10초마다 재전송될 수 있다.

항목 수 : 데이터 테이블 내의 항목의 수를 지정하는 16-비트 부호 없는 정수.

데이터 테이블 : RTP 패킷의 페이로드 부분에 넣을 데이터를 정의하는 테이블. 이 테이블은 데이터가 검색될 수 있는 다양한 위치를 정의하고, 표 4에 나타내어져 있다.

데이터 테이블

데이터 테이블 항목	바이트
데이터 소스	1
데이터	15

항목 테이블의 데이터 소스 필드는 항목의 다른 15 바이트가 어떻게 해석되어야 하는지를 나타낸다. 0 내지 4의 값이 정의되어 있다. 다양한 데이터 테이블 형식이 이하에 정의되어 있다. 다양한 방식이 있지만, 다양한 방식에서의 항목이 통상적으로 16 바이트 길이이다.

무연산(no-op) 데이터 모드

이 데이터 테이블 항목은 무연산 모드에 대한 다음과 같은 형식을 가진다:

필드 설명:

데이터 소스 = 0 : 0의 값은 이 데이터 테이블 항목이 무시되어야 한다는 것을 나타낸다.

직접 데이터 모드

데이터 테이블 항목은 직접 모드에 대한 다음과 같은 형식을 가진다:

필드 설명:

데이터 소스 = 1 : 1의 값은 데이터가 다음과 같은 데이터의 바이트로부터 직접 취해져야 한다는 것을 나타낸다.

직접 길이 : 다음과 같은 데이터로부터 취할 바이트의 수를 나타내는 8-비트 정수. 적법한 값은 0 내지 14의 범위에 있다.

직접 데이터 : 패킷의 페이로드 부분에 배치할 14 바이트의 데이터. 직접 길이 필드가 나타내는 제1 수의 바이트만이 사용된다.

샘플 모드

데이터 테이블 항목은 샘플 모드에 대한 다음과 같은 형식을 가진다:

필드 설명:

데이터 소스 = 2 : 2의 값은 데이터가 트랙의 샘플 데이터로부터 취해져야 한다는 것을 나타낸다.

트랙 참조 인덱스 : 샘플 데이터가 어느 트랙에서 올 것인지를 나타내는 값. 0의 값은 사용되어야 하는 정확히 하나의 미디어 트랙 참조가 있다는 것을 의미한다. 1 내지 127의 값은 어느 최초 미디어 트랙으로부터 샘플이 판독되어야 하는지를 나타내는 힌트 트랙 참조 아톰 항목에 대한 인덱스이다. -1의 값은 힌트 트랙 자체 - 즉, 현재 파싱되고 있는 힌트 샘플과 동일한 트랙으로부터의 샘플 - 가 사용된다는 것을 의미한다.

압축 블록별 바이트 : 압축 블록별 샘플 필드 내의 샘플의 수를 압축하는 것으로부터 얻어지는 바이트의 수를 지정하는 16-비트 부호 없는 정수. 0의 값은 1의 값과 동등하다.

압축 블록별 샘플 : 압축 블록별 미압축 샘플을 지정하는 16-비트 부호 없는 정수. 0의 값은 1의 값과 동등하다.

길이 : 복사할 샘플 내의 바이트의 수를 지정하는 16-비트 정수.

샘플 수 : 트랙의 샘플 수를 지정하는 32-비트 정수.

오프셋 : 복사하기 시작할 샘플의 시작으로부터의 오프셋을 지정하는 32-비트 정수. 힌트 트랙 내의 샘플을 참조하는 경우, 이것은 일반적으로 부가 데이터 영역을 가리킬 것이다.

압축 블록별 바이트 및/또는 압축 블록별 샘플이 1보다 큰 경우, 이 비율은 샘플 수를 실제 바이트 오프셋으로 변환하는 데 사용된다. 이 비율 모드는 통상적으로 다음과 같이 QuickTime 영화 내의 압축된 오디오 트랙에 대해 사용된다:

CB = NS * BPCB / SPCB

여기서,

CB = compressed bytes(압축된 바이트)

NS = number of samples(샘플의 수)

BPCB = bytes per compression block(압축 블록별 바이트)

SPCB = samples per compression block(압축 블록별 샘플)

예를 들어, GSM 압축 블록은 통상적으로 33 바이트로 패킹된 160 샘플이다. 따라서, BPCB = 33이고 SPCB = 160이다. 힌트 샘플은 161번째 미디어 샘플에서 시작하는 33 바이트의 데이터를 요청한다. 제1 QuickTime 청크가 적어도 320개 샘플을 포함하는 것으로 가정하면, 따라서 이 데이터가 청크 1로부터 올 것이라고 판정한 후에, 청크 1이 시작하는 경우, 요청된 샘플이 발견될 파일에 대한 오프셋을 조정하기 위해 이 비율이 이용된다.

chunk_number = 1 ; /* 샘플-청크 아톰을 탐색함으로써 계산됨*/

first_sample_in_this_chunk = 1 ; /* 역시 그 아톰으로부터 계산됨*/

chunk_offset = chunk_offsets[chunk_number]; /* stco 아톰으로부터 */

data_offset = (sample_number - first_sample_in_this_chunk) * BPP / SPP

read_from_file(chunk_offset + data_offset, length); /* 데이터를 판독 */

샘플 설명 모드

데이터 테이블 항목은 샘플 설명 모드에 대한 다음과 같은 형식을 가진다:

필드 설명:

데이터 소스 = 3 : 3의 값은 데이터가 미디어 트랙의 샘플 설명 테이블로부터 취해져야 한다는 것을 나타낸다.

트랙 참조 인덱스 : 샘플 데이터가 어느 트랙에서 올 것인지를 나타내는 값. 0의 값은 사용되어야 하는 정확히 하나의 힌트 트랙 참조가 있다는 것을 의미한다. 1 내지 127의 값은 어느 최초 미디어 트랙으로부터 샘플이 판독되어야 하는지를 나타내는 힌트 트랙 참조 아톰 항목에 대한 인덱스이다. -1의 값은 힌트 트랙 자체 - 즉, 현재 파싱되고 있는 힌트 샘플과 동일한 트랙으로부터의 샘플 설명 - 가 이용된다는 것을 의미한다.

예약됨 : 0으로 설정된 4 바이트.

샘플 설명 인덱스 : 미디어의 샘플 설명 테이블에 대한 인덱스를 지정하는 32-비트 정수.

오프셋 : 복사하기 시작할 샘플의 시작으로부터의 오프셋을 지정하는 32-비트 정수.

부가 데이터 : 데이터 테이블 내의 힌트 트랙 샘플 모드 항목이 가리키는 데이터를 포함하는 가변 길이 필드.

부록 D - MPEG-2 전송에 대한 예시적인 힌트 트랙 형식

이 섹션은 기본 스트림을 보유하는 QuickTime 영화로부터 MPEG-2 전송을 스트리밍하기 위한 간단한 트랙 형식의 한 일례를 제시한다.

MPEG-2 전송 스트림은 하나 이상의 기본 스트림의 다중화와 연관되어 있다. 이 때문에, MPEG-2 전송 힌트 트랙은 하나 이상의 미디어 트랙으로부터 이러한 다중화를 어떻게 구성할지를 기술한다. 미디어 트랙과 MPEG-2 전송 힌트 트랙 사이에 꼭 일대일 관계가 있을 필요는 없다. 각각의 힌트 트랙은 그가 나타내는 기본 스트림에 대한 참조를 포함할 수 있다. 본 발명의 한 일례에서, QuickTime 파일은 상이한 다중화를 기술하는 다수의 이러한 힌트 트랙을 포함할 수 있다.

패킷 크기는 일반적으로 문제가 되지 않는데, 그 이유는 모든 MPEG-2 전송 패킷이 188 바이트 크기이기 때문이다. 본 발명의 한 일례에서, 각각의 전송 패킷은 (MPEG-2 전송 프로토콜 내의) 하나의 미디어 트랙으로부터의 페이로드 데이터를 포함한다. 이것은 각각의 전송 패킷에 대한 비교적 간단한 힌트 설명을 가능하게 해준다. 본 발명의 한 일례에서, 각각의 이러한 힌트는 각각의 전송 패킷에 어느 헤더 데이터가 나오는지를 기술하고, 이어서 전송 패킷에 대해 적절한 미디어 트랙 내의 페이로드를 가리킨다. 미디어 트랙에 대응하지 않는 패킷(PSI 패킷 등)에 대해, 힌트는 188 바이트의 헤더 데이터를 기술할 수 있고, 임의의 미디어 트랙 참조는 관련성이 없는 것으로 간주될 수 있다. 미디어 트랙에 대응하는 패킷에 대해, 헤더 데이터는 전송 헤더, 가능한 적응 헤더, 및 PES 패킷을 시작하는 전송 패킷에 대한 PES 헤더와 같은 정보를 고려할 수 있다.

(유형 'stsd'의) 샘플 설명 아톰 내의 MPEG-2 전송 힌트 트랙을 참조한다. 이 아톰은 샘플 설명 테이블을 포함하고, 이 테이블 내의 항목들이 미디어 유형에 기초하여 다르다. 본 발명의 한 일례에서, 힌트 트랙은 표 1에 나타낸 구조로 시작한다. 부가 데이터 테이블은 표 2에 나타낸 구조를 갖는 항목을 보유할 수 있다.

본 발명의 한 일례에서, 힌트 트랙이 MPEG-2 전송 힌트 트랙인 경우, 힌트 트랙 샘플 설명 항목에서의 데이터 형식은 'm2t'일 것이고, 최대 패킷 크기가 항상 188일 것이다. 이러한 설명 항목에서, 이하에서 표 5 내지 표 7에 나타낸 유형이 부가 데이터 테이블에 있을 수 있다:

부가 데이터 테이블 항목

항목 길이	데이터 유형	데이터 설명
8	0x00000000	테이블에 더 이상 항목이 없음을 나타냄
9	'otyp'	힌트에서 오프셋이 어떻게 기술되는지를 기술함. 1 바이트의 데이터가 이하에서 그림 B.4에 기술된 값을 가짐. 이 항목은 부가 데이터 테이블에서 필수적임.
9	'msns'	미디어 샘플 수의 크기를 기술함. 1 바이트의 데이터가 미디어 샘플 수를 지정하는 데 몇 바이트가 사용되는지를 나타냄. 이것이 존재하지 않고 미디어 샘플 수가 샘플 데이터에 존재하는 경우, 기본값은 4 바이트임.
9	'msos'	미디어 샘플 오프셋의 크기를 기술함. 1 바이트의 데이터가 미디어 샘플 오프셋을 지정하는 데 몇 바이트가 사용되는지를 나타냄. 이것이 존재하지 않고 미디어 샘플 오프셋이 샘플 데이터에 존재하는 경우, 기본값은 4 바이트임.
9	'fosz'	파일 오프셋의 크기를 기술함. 1 바이트의 데이터가 몇 바이트가 샘플 내에서의 파일 오프셋을 지정하는 데 사용되는지를 나타냄. 이것이 존재하지 않고 파일 오프셋이 샘플 데이터에 존재하는 경우, 기본값은 4 바이트임.
가변적임	'tmap'	미디어 트랙의 축약된 매핑을 기술함. 각각의 5 바이트 항목은 4 바이트 트랙 ID를 1 바이트 트랙 참조 번호에 매핑함. 이것은 임의의 주어진 전송 다중화를 단지 256 미디어 트랙을 포함하는 것으로 제한하지만, 이것이 제한 인자이어서는 안되며, 이 압축은 힌트 트랙의 크기를 제한하는 데 유용함. 이 5 바이트 항목의 형식은 이하의 그림 B.5에서 지정됨. 이 항목은 부가 데이터 테이블에서 필수적임.

부가 데이터 테이블에서의 'otyp' 값

값	설명
0	샘플이 미디어 샘플과 관련하여 기술됨
1	샘플이 파일 오프셋과 관련하여 기술됨

'tmap' 부가 데이터 항목에서의 항목의 형식

길이	설명
4	최초의 트랙 ID
1	샘플에서 사용되는 축약된 트랙 참조 번호

본 발명의 한 일례에서, 각각의 힌트 샘플은 하나의 전송 패킷을 기술한다. 각각의 전송 패킷은 어떤 양의 헤더 데이터 및 그 다음에 오는 하나의 미디어 트랙으로부터의 어떤 양의 페이로드로서 기술될 수 있다. MPEG-2 전송 패킷이 비교적 작기 때문에, 많은 수의 힌트 샘플이 발생될 수 있고, 따라서 이들 샘플은 바람직하게는 가능한 한 작아야만 한다. 샘플의 수를 최소화하기 위해 상기 부가 데이터 테이블 내의 몇개의 항목이 사용될 수 있지만, 이러한 인자는 샘플 항목 내의 필드들 중 일부를 가변 크기로 만들 수 있다.

데이터 테이블 내의 'otyp' 항목이 페이로드 데이터가 미디어 샘플과 관련하여 기술되어 있다는 것을 나타내는 값 0을 가지는 경우, 힌트 샘플은 표 8에 나타낸 이하의 형태를 가질 수 있다:

미디어 샘플 참조를 사용하는 힌트 샘플 형식

길이	설명
1	이 패킷에 대한 페이로드 데이터를 보유하는 미디어 트랙의 트랙 참조 번호. 이것은 부가 데이터 테이블에서의 'tmap' 항목을 사용하여 트랙 ID에 매핑될 수 있음. 힌트가 188 바이트의 직접 데이터를 지정하는 경우, 이 필드는 관련성이 없음.
1	패킷에 대한 직접 데이터의 길이. 주목할 점은, 이것이 188 이하이어야만 하는데 그 이유는 전송 패킷이 188 바이트 길이이기 때문임.
가변적임	전송 패킷에 대한 헤더로서 사용될 직접 데이터의 바이트. 바이트의 수가 이전 필드에 의해 기술됨.
가변적임	페이로드 데이터에 대해 사용할 미디어 샘플 수. 이 필드의 기본 크기는 4 바이트이지만, 부가 데이터 테이블에 'msns' 항목의 존재에 의해 수정될 수 있음
가변적임	페이로드 데이터에 대해 사용할 미디어 샘플 오프셋. 이 필드의 기본 크기는 4 바이트이지만, 부가 데이터 테이블에 'msos' 항목의 존재에 의해 수정될 수 있음.

본 발명의 한 일례에서, 패킷에 대한 페이로드 데이터의 길이를 나타낼 필요가 없는데, 그 이유는, MPEG-2에서, 이 길이가 '188 - 패킷에 대한 헤더 데이터의 크기'이기 때문이다.

데이터 테이블 내의 'otyp' 항목이 페이로드 데이터가 파일 오프셋과 관련하여 기술되어 있다는 것을 나타내는 값 1을 가지는 경우, 힌트 샘플은 표 9에 나타낸 이하의 형태를 가질 수 있다:

길이	설명
1	이 패킷에 대한 페이로드 데이터를 보유하는 미디어 트랙의 트랙 참조 번호. 이것은 부가 데이터 테이블에서의 'tmap' 항목을 사용하여 트랙 ID에 매핑될 수 있음. 힌트가 188 바이트의 직접 데이터를 지정하는 경우, 이 필드는 관련성이 없음.
1	패킷에 대한 직접 데이터의 길이. 주목할 점은 이것이 188 이하이어야 하는데, 그 이유는 전송 패킷이 188 바이트 길이이기 때문임.
가변적임	전송 패킷에 대한 헤더로서 사용될 직접 데이터의 바이트. 바이트의 수는 이전 필드에 의해 기술됨.
가변적임	페이로드 데이터가 위치하는 파일 오프셋. 이 오프셋은 미디어 트랙에 대한 데이터가 위치하는 파일에 있음. 이 필드의 기본 크기는 4 바이트이지만, 부가 데이터 테이블에서의 'fosz' 항목의 존재에 의해 수정될 수 있음.

본 발명의 한 일례에서, 힌트 샘플은 미디어 샘플과 관련하여 또는 파일 오프셋과 관련하여 그의 오프셋을 기술할 수 있다. 이들 각각은 장점과 단점을 가진다. 힌트 샘플이 미디어 샘플과 관련하여 페이로드를 지정하는 경우, 힌트 샘플은 미디어 트랙을 포함하는 파일의 부가적인 편집에 더 유연성이 있을 수 있지만, 전달을 위한 부가의 처리를 필요로 할 수 있다. 힌트 샘플이 파일 오프셋과 관련하여 페이로드를 지정하는 경우, 페이로드 데이터가 비교적 신속하게 액세스될 수 있지만, 미디어 트랙을 포함하는 파일의 임의의 편집이 힌트를 무효화할 수 있다.

부록 D - 예시적인 파일

비교적 덜 중요한 필드 및 객체 중 일부가 빠져 있고(여기에서 생략 부호 "..."로 표시되어 있음), 본 발명의 일 실시예에 따라, RTP를 통해 스트리밍할 준비가 되어 있는 파일의 전체 구조를 나타내는 어떤 가공의 수를 갖는 비교적 짧은 (6 프레임) 샘플 파일이 이하에 제공된다. 미디어 데이터가 빠져 있고, 메타-데이터만이 나타내어져 있다.

Claims

멀티뷰 콘텐츠의 복수의 뷰 중 임의의 뷰로부터 볼 수 있는 제시(presentation)를 제공하는 샘플들을 포함하는 제1 데이터 집합에 저장된 판독가능 콘텐츠를 처리하는 방법으로서,
기본 트랙에 상기 제1 데이터 집합을 저장하는 단계, 및
복수의 추출기 트랙 세트를 도출하는 단계
를 포함하고,
상기 복수의 추출기 트랙 세트 각각은 상기 멀티뷰 콘텐츠의 복수의 뷰 중 하나에 대응하고, 상기 복수의 추출기 트랙 세트는 상기 멀티뷰 콘텐츠와는 따로 저장되고, 상기 멀티뷰 콘텐츠는 파일에 저장되고,
상기 복수의 추출기 트랙 세트 중 하나는 상기 제1 데이터 집합으로부터 도출되는 제2 데이터 집합을 포함하고, 상기 제2 데이터 집합은 상기 제1 데이터 집합으로부터 상기 멀티뷰 콘텐츠 내의 복수의 동작 지점 중 제1 동작 지점에 대한 제1 동작 지점 데이터를 식별하는데 사용되는 상기 제1 데이터 집합에 대한 참조들을 포함하고, 상기 복수의 동작 지점 각각은 상기 멀티뷰 콘텐츠의 피사체의 복수의 뷰 중 상이한 뷰에 대응하고, 상기 상이한 뷰들 중 적어도 하나는 복수의 시점으로부터의 콘텐츠를 포함하고, 상기 제1 동작 지점 데이터의 식별은 상기 제1 데이터 집합 내의 각각의 데이터의 탐색 및 상기 복수의 추출기 트랙 세트 전체의 탐색 없이도 이루어지는, 방법.
제1항에 있어서, 상기 제2 데이터 집합은 상기 제1 데이터 집합으로부터 복사된 상기 제1 동작 지점에 대한 샘플들을 포함하는 방법.
제1항에 있어서, 상기 제2 데이터 집합은 상기 제1 데이터 집합으로부터의 데이터 또는 상기 제1 데이터 집합으로부터 복사된 데이터를 선택할 시에 사용되는 참조들 이외의 상기 제1 동작 지점에 대한 샘플들을 포함하는 방법.
제1항에 있어서,
상기 제2 데이터 집합을 저장하는 단계,
상기 제1 데이터 집합으로부터 제3 데이터 집합을 도출하는 단계 - 상기 제3 데이터 집합은 상기 제1 데이터 집합으로부터 상기 멀티뷰 콘텐츠 내의 제2 동작 지점에 대한 데이터를 선택할 시에 사용되는 상기 제1 데이터 집합에 대한 참조들을 포함함 -, 및
상기 제3 데이터 집합을 저장하는 단계
를 더 포함하고,
상기 제1 데이터 집합, 상기 제2 데이터 집합 및 상기 제3 데이터 집합 각각은 시작 샘플부터 종료 샘플까지의 순서를 갖고, 각각의 샘플은 상기 순서를 지정하는 연관된 시간을 가지는 방법.
제4항에 있어서, 상기 복수의 뷰는 제1 샘플들을 포함하고, 상기 제1 샘플들의 샘플들 각각은 NAL(Network Abstraction Layer, 네트워크 추상화 계층) 단위이고, 상기 제2 데이터 집합은 복수의 제2 샘플 - 각각이 상기 제1 샘플들 중 하나의 제1 샘플을 참조하고 각각이 NAL 단위이며 각각이 상기 제1 샘플들 중 상기 하나의 제1 샘플에 있는 바이트의 수를 명시함 - 을 포함하며, 상기 복수의 제2 샘플은 상기 제1 샘플들과 분리되어 연속적으로 저장되어 있고, 상기 제시는 사운드를 갖는 영화, 무성 영화, 또는 오디오 전용 제시 중 하나인 방법.
제5항에 있어서, 상기 NAL 단위는 집계기 NAL 단위(aggregator NAL unit)인 방법.
프로세서로 하여금 멀티뷰 콘텐츠의 복수의 뷰 중 임의의 뷰로부터 볼 수 있는 제시를 제공하는 샘플들을 포함하는 제1 데이터 집합에 저장된 판독가능 콘텐츠를 처리하는 방법을 수행하게 하는 실행가능 명령어들을 갖는 머신(machine)-판독가능 매체로서,
상기 방법은,
기본 트랙에 상기 제1 데이터 집합을 저장하는 단계, 및
복수의 추출기 트랙 세트를 도출하는 단계
를 포함하고,
상기 복수의 추출기 트랙 세트 각각은 상기 멀티뷰 콘텐츠의 복수의 뷰 중 하나에 대응하고, 상기 복수의 추출기 트랙 세트는 상기 멀티뷰 콘텐츠와는 따로 저장되고, 상기 멀티뷰 콘텐츠는 파일에 저장되고,
상기 복수의 추출기 트랙 세트 중 하나는 상기 제1 데이터 집합으로부터 도출되는 제2 데이터 집합을 포함하고, 상기 제2 데이터 집합은 상기 제1 데이터 집합으로부터 상기 멀티뷰 콘텐츠 내의 복수의 동작 지점 중 제1 동작 지점에 대한 제1 동작 지점 데이터를 식별하는데 사용되는 상기 제1 데이터 집합에 대한 참조들을 포함하고, 상기 복수의 동작 지점 각각은 상기 멀티뷰 콘텐츠의 피사체의 복수의 뷰 중 상이한 뷰에 대응하고, 상기 상이한 뷰들 중 적어도 하나는 복수의 시점으로부터의 콘텐츠를 포함하고, 상기 제1 동작 지점 데이터의 식별은 상기 제1 데이터 집합 내의 각각의 데이터의 탐색 및 상기 복수의 추출기 트랙 세트 전체의 탐색 없이도 이루어지는, 머신-판독가능 매체.
제7항에 있어서, 상기 제2 데이터 집합은 상기 제1 데이터 집합으로부터 복사된 상기 제1 동작 지점에 대한 샘플들을 포함하는 머신-판독가능 매체.
제7항에 있어서, 상기 제2 데이터 집합은 상기 제1 데이터 집합으로부터의 데이터 또는 상기 제1 데이터 집합으로부터 복사된 데이터를 선택할 시에 사용되는 참조들 이외의 상기 제1 동작 지점에 대한 샘플들을 포함하는 머신-판독가능 매체.
제7항에 있어서, 상기 방법은,
상기 제2 데이터 집합을 저장하는 단계,
상기 제1 데이터 집합으로부터 제3 데이터 집합을 도출하는 단계 - 상기 제3 데이터 집합은 상기 제1 데이터 집합으로부터 상기 멀티뷰 콘텐츠 내의 제2 동작 지점에 대한 데이터를 선택할 시에 사용되는 상기 제1 데이터 집합에 대한 참조들을 포함함 -, 및
상기 제3 데이터 집합을 저장하는 단계
를 더 포함하고,
상기 제1 데이터 집합, 상기 제2 데이터 집합 및 상기 제3 데이터 집합 각각은 시작 샘플부터 종료 샘플까지의 순서를 갖고, 각각의 샘플은 상기 순서를 지정하는 연관된 시간을 가지는 머신-판독가능 매체.
제10항에 있어서, 상기 복수의 뷰는 제1 샘플들을 포함하고, 상기 제1 샘플들의 데이터 샘플들 각각은 NAL(Network Abstraction Layer, 네트워크 추상화 계층) 단위이고, 상기 제2 데이터 집합은 복수의 제2 샘플 - 각각이 상기 제1 샘플들 중 하나의 제1 샘플을 참조하고 각각이 NAL 단위이며 각각이 상기 제1 샘플들 중 상기 하나의 제1 샘플에 있는 바이트의 수를 명시함 - 을 포함하며, 상기 복수의 제2 샘플은 상기 제1 샘플들과 분리되어 연속적으로 저장되어 있고, 상기 제시는 사운드를 갖는 영화, 무성 영화, 또는 오디오 전용 제시 중 하나인 머신-판독가능 매체.
제11항에 있어서, 상기 NAL 단위는 집계기 NAL 단위인 머신-판독가능 매체.
멀티뷰 콘텐츠의 복수의 뷰 중 임의의 뷰로부터 볼 수 있는 제시를 제공하는 샘플들을 포함하는 제1 데이터 집합에 저장된 판독가능 콘텐츠를 처리하는 장치로서,
기본 트랙에 상기 제1 데이터 집합을 저장하는 수단, 및
복수의 추출기 트랙 세트를 도출하는 수단
을 포함하고,
상기 복수의 추출기 트랙 세트 각각은 상기 멀티뷰 콘텐츠의 복수의 뷰 중 하나에 대응하고, 상기 복수의 추출기 트랙 세트는 상기 멀티뷰 콘텐츠와는 따로 저장되고, 상기 멀티뷰 콘텐츠는 파일에 저장되고,
상기 복수의 추출기 트랙 세트 중 하나는 상기 제1 데이터 집합으로부터 도출되는 제2 데이터 집합을 포함하고, 상기 제2 데이터 집합은 상기 제1 데이터 집합으로부터 상기 멀티뷰 콘텐츠 내의 복수의 동작 지점 중 제1 동작 지점에 대한 제1 동작 지점 데이터를 식별하는데 사용되는 상기 제1 데이터 집합에 대한 참조들을 포함하고, 상기 복수의 동작 지점 각각은 상기 멀티뷰 콘텐츠의 피사체의 복수의 뷰 중 상이한 뷰에 대응하고, 상기 상이한 뷰들 중 적어도 하나는 복수의 시점으로부터의 콘텐츠를 포함하고, 상기 제1 동작 지점 데이터의 식별은 상기 제1 데이터 집합 내의 각각의 데이터의 탐색 및 상기 복수의 추출기 트랙 세트 전체의 탐색 없이도 이루어지는, 장치.
제13항에 있어서,
상기 제2 데이터 집합을 수신하는 수단,
상기 제1 데이터 집합으로부터 제3 데이터 집합을 도출하는 수단 - 상기 제3 데이터 집합은 상기 제1 데이터 집합으로부터 상기 멀티뷰 콘텐츠 내의 제2 동작 지점에 대한 데이터를 선택할 시에 사용되는 상기 제1 데이터 집합에 대한 참조들을 포함함 -, 및
상기 제3 데이터 집합을 저장하는 수단
을 더 포함하고,
상기 제1 데이터 집합, 상기 제2 데이터 집합 및 상기 제3 데이터 집합 각각은 시작 샘플부터 종료 샘플까지의 순서를 갖고, 각각의 샘플은 상기 순서를 지정하는 연관된 시간을 가지는 장치.
제14항에 있어서, 상기 복수의 뷰는 제1 샘플들을 포함하고, 상기 제1 샘플들의 샘플들 각각은 NAL(Network Abstraction Layer, 네트워크 추상화 계층) 단위이고, 상기 제2 데이터 집합은 복수의 제2 샘플 - 각각이 상기 제1 샘플들 중 하나의 제1 샘플을 참조하고 각각이 NAL 단위이며 각각이 상기 제1 샘플들 중 상기 하나의 제1 샘플에 있는 바이트의 수를 명시함 - 을 포함하며, 상기 복수의 제2 샘플은 상기 제1 샘플들과 분리되어 연속적으로 저장되어 있고, 상기 제시는 사운드를 갖는 영화, 무성 영화, 또는 오디오 전용 제시 중 하나인 장치.
멀티뷰 콘텐츠의 복수의 스케일 중 임의의 스케일로부터 볼 수 있는 제시를 제공하는 샘플들을 포함하는 제1 데이터 집합에 저장된 멀티뷰 콘텐츠를 처리하는 시스템으로서,
프로세서, 및
버스를 통해 상기 프로세서에 결합된 메모리
를 포함하고,
상기 프로세서는 상기 프로세서로 하여금 기본 트랙에 상기 제1 데이터 집합을 저장하고, 복수의 추출기 트랙 세트를 도출하게 하도록 프로그램되어 있고,
상기 복수의 추출기 트랙 세트 각각은 상기 멀티뷰 콘텐츠의 복수의 뷰 중 하나에 대응하고, 상기 복수의 추출기 트랙 세트는 상기 멀티뷰 콘텐츠와는 따로 저장되고, 상기 멀티뷰 콘텐츠는 파일에 저장되고,
상기 복수의 추출기 트랙 세트 중 하나는 상기 제1 데이터 집합으로부터 도출되는 제2 데이터 집합을 포함하고, 상기 제2 데이터 집합은 상기 제1 데이터 집합으로부터 상기 멀티뷰 콘텐츠 내의 복수의 동작 지점 중 제1 동작 지점에 대한 제1 동작 지점 데이터를 식별하는데 사용되는 상기 제1 데이터 집합에 대한 참조들을 포함하고, 상기 복수의 동작 지점 각각은 상기 멀티뷰 콘텐츠의 피사체의 복수의 뷰 중 상이한 뷰에 대응하고, 상기 상이한 뷰들 중 적어도 하나는 복수의 시점으로부터의 콘텐츠를 포함하고, 상기 제1 동작 지점 데이터의 식별은 상기 제1 데이터 집합 내의 각각의 데이터의 탐색 및 상기 복수의 추출기 트랙 세트 전체의 탐색 없이도 이루어지는, 시스템.