KR20040077765A

KR20040077765A - 랜덤 액세스 및 스플라이싱을 가능하게 하기 위해 비디오데이터를 인코딩 및 디코딩하는 방법 및 시스템

Info

Publication number: KR20040077765A
Application number: KR10-2004-7011324A
Authority: KR
Inventors: 게리 제이. 슬리반
Original assignee: 마이크로소프트 코포레이션
Priority date: 2002-01-22
Filing date: 2003-01-22
Publication date: 2004-09-06
Also published as: KR20040075956A

Abstract

다양한 실시예들은 영상들의 인코딩된 시퀀스의 영상들 사이에 복잡한 의존성을 허용하는 비디오 부호화 표준과 관련하여 디코딩을 용이하게 하는 접근법을 제공한다. 일부 실시예에서, 랜덤 액세스 포인트(random access point; RAP)의 개념이 이용된다. 랜덤 액세스 포인트는 시퀀스의 랜덤 액세스를 용이하게 하는 정보를 포함하는 영상 시퀀스 내의 효율적인 위치이다. 일부 실시예에서, 랜덤 액세스 포인트는 다양한 타입의 데이터를 포함할 수 있다. 이러한 데이터는 하나 이상의 진입 포인트 및 회복 포인트를 포함할 수 있다. 이러한 포인트들은 디코더가 자신의 디코딩 활동들이 정확하고 적합하게 디코딩된 영상들을 야기하게 될 시점을 확인하기 위해 사용할 수 있는 척도를 제공한다.

Description

랜덤 액세스 및 스플라이싱을 가능하게 하기 위해 비디오 데이터를 인코딩 및 디코딩하는 방법 및 시스템{METHODS AND SYSTEMS FOR ENCODING AND DECODING VIDEO DATA TO ENABLE RANDOM ACCESS AND SPLICING}

<관련 발명>

본 출원은, 2002년 1월 22일에 출원된 미국 가출원 번호 제60/351,142호에서 유래하고, 이에 대한 우선권을 주장하는데, 상기 가출원의 개시 내용은 본 명세서에서 참조로서 포함된다.

통상적으로, 디지털 데이터는 일정한 타입의 전송기로부터 일정한 타입의 수신기로 전송된다. 전송기는 전송을 위한 데이터를 인코딩하는 인코더를 통상적으로 포함하고, 수신기는 자신이 수신한 데이터를 디코딩하는 디코더를 통상적으로 포함한다. 비디오 데이터, 오디오 데이터, 오디오/비디오 데이터 등과 같은 상이한 타입의 디지털 데이터가 존재한다. 디지털 데이터가 전송되는 경우, 통상적으로 일정한 타입의 채널에서 전송된다.

지배적인 비디오 압축 및 전송 포맷들은 혼성 블록 기반 화상 신호 보정 변환 비디오 부호기(hybrid block-based motion-compensated transform video coder)라고 불리는 군(family)으로부터 유래하는데, 상기 부호기의 예는 ITU-T VCEG(Video Coding Experts Group) 및 ISO/IEC MPEG(Moving Picture Experts Group)의 (H.261, MPEG-1, H.262/MPEG-2 비디오, H.263, MPEG-4 비쥬얼 및 인-프로세스 초안 표준(in-process draft standard) H.264/AVC를 포함하는) 비디오 코딩 표준들을 포함한다. 또한, 정지 영상(still picture), 오디오, 문서, 웹 페이지 등을 포함하는 다양한 다른 타입의 매체를 위하여, 그리고 이러한 신호들을 동기화하고 함께 멀티플렉싱하기 위하여 부호화 및 압축 표준들이 지정되어 있다.

가장 광범위하게 사용되는 비디오 부호화 표준은 H.262/MPEG-2인데, 본 명세서에서는 이를 기준 예(reference example)로 사용할 것이다. 일반적으로, MPEG-2 비디오 스트림은 세 가지 타입의 프레임들 또는 영상들(pictures)로 구성된다. 본 문서에서는 "영상(picture)"이라는 용어를 사용한다. 세 가지 타입의 MPEG-2 영상은, 화면 내 영상(intra pictures; I-pictures), 예측 영상(predictive pictures(P-pictures) 및 양방향 예측 영상(bi-directionally predictive pictures(B-pictures) 이다.

통상적으로, MPEG-2 비디오 스트림 또는 시퀀스는 GOP(Groups of Pictures)라 불리는 세그먼트에 의해 정의된다. 통상적으로, GOP는 의도된 속도로 디스플레이 되는 경우, 0.5초의 지속시간(duration)을 갖는 한 세트의 영상으로 구성된다.

도 1은, 왼쪽에서 오른쪽으로 영상이 디스플레이되는 차례대로 정렬되고 인덱싱된 영상의 시퀀스로 구성되고, I-영상(I₀; 100)으로 시작하는 MPEG-2 비디오 스트림의 시작점을 도시한다. 본 실시예에서, 제1 GOP는 제1 I-영상(I₀; 100)으로 시작하여, 다음 I-영상(I₉; 190)을 선행하는 마지막 P-영상(P₆; 160)을 포함하기까지의 추후 영상을 포함한다. 제2 GOP는 제2 I-영상(I₉; 190)을 선행하는 제1 B-영상(B₇; 170)으로 시작한다. 본 예시 시퀀스에서, 제1 예시 GOP는 하나의 I-영상, 두 개의 P-영상들 및 네 개의 B-영상들을 포함한다. 각각의 GOP는, B-영상에 의해 바로 앞에서 선행되지 않는 영상(I₀; 100)과 같은 I-영상으로 시작하거나, I₉(190)과 같이 I-영상을 바로 앞에서 선행하는 하나 이상의 연속적인 B-영상 시퀀스 내의 B₇(170)과 같은 제1 B-영상으로 시작하는 하나 이상의 연속적인 영상을 포함한다.

통상적으로, 임의의 선행 GOP들과 본질적으로 무관하게, 예컨대 제1 GOP 내의 I-영상(I₀; 100) 또는 제2 GOP 내의 I-영상(I₉; 190)에서, 임의의 GOP의 제1 I-영상을 디코딩함으로써 디코딩이 시작된다. GOP 내에 존재할 수 있는 영상들의 수에 특별한 제한이 존재하지 않고, 또한 비디오 시퀀스 내의 모든 GOP들에 동일한 수의 영상들을 대한 요구 사항도 없다.

MPEG-2 I-영상들 및 P-영상들은 "앵커(anchor)" 영상들(또는 "키" 영상들)로 불린다. I-영상은 임의의 다른 영상들과 독립적으로 디코딩될 수 있다. I-영상은 자신의 이미지를 구성하기 위해 임의의 다른 영상으로부터의 데이터에 의존하지 않는다. 영상(P₃; 130)과 같은 MPEG-2 P-영상은 자신의 압축을 풀기위해 하나의 사전 압축 해제된 앵커 영상(예컨대, I-영상들 또는 P-영상들)으로부터의 데이터를 필요로 한다. P-영상이 의존적이기는 하지만, P-영상은 이미 디코딩된 하나의 앵커 영상에만 의존한다.

영상(B₁; 110)과 같은 MPEG-2 B-영상은 디코딩을 위해 선행 및 후행 앵커 영상들(예컨대, I-영상들 또는 P-영상들)로부터의 데이터를 필요로 한다. 즉, MPEG-2 B-영상은 양방향 의존적(bi-directionally dependent)이다.

도 1에서, 화살표의 끝은 화살표로 지시된 영상이 의존하는 영상(들)을 나타낸다. 예컨대, B-영상(B₄; 140)은 P-영상(P₃; 130) 및 P-영상(P₆; 160)에 의존한다.

도 1에 도시된 마지막 영상 이후에 일부 부가적인 영상들이 도시되고, 제3 GOP의 시작이 영상 B₁₆으로 시작하는 것으로 도시된, 개별 I-, B- 및 P-영상들의 동일한 시퀀스의 디스플레이 순서(display order)를 도시하는 도 2의 영상 시퀀스를 고려한다. 디스플레이 순서는 영상들이 디스플레이될 순서이다. 예컨대, 누군가가 개별 영상들을 디스플레이하는 중이라면, I₀는 디스플레이되는 제1 영상이 되고, 그 뒤를 이어 B₁, B₂등이 디스플레이될 것이다. 그러나, 예측되는 영상들(예컨대, B-영상들)의 입장에서 상기 시퀀스를 관찰하면, B-영상을 디코딩하기 위해, 디코더는 시간적으로 B-영상의 뒤에 오는 I-영상 또는 P-영상의 디코딩된 값을 참조해야한다는 점에 주의해야 한다. 따라서, 본 예시에서, 디코더는 B₂를 디코딩하기 위하여 I₀및 P₃모두를 참조할 것이다. 즉, 디코더는 B₂를 디코딩하기 위하여 I₀및 P₃모두를 디코딩해야할 것이다.

따라서, 인코더는 통상적으로 디스플레이 순서와는 다른 순서로 영상들을 전송하므로, 디코더는 자신이 수신하는 대로 영상들을 디코딩할 수 있다. 예컨대, 도 3은 도 2 시퀀스의 전송 순서(transmission order) 또는 디코딩 순서(decoding order)를 도시한다. 디코더는 I-영상들 및 P-영상들을 참조하는 B-영상들 이전에 I-영상들 및 P-영상들을 디코딩해야 하므로, I-영상들 및 P-영상들은 이를 참조하는하는 B-영상들에 앞서 송신된다. 이 경우, P₃는 자신을 참조하는 B₁및 B₂에 앞서 송신됨에 주의해야 한다. 그러므로, 디코더가 전송 순서대로 시퀀스를 수신한 경우, 디코더는 우선 I₀를 디코딩하고 그 후에, I₀를 참조하는 P₃를 디코딩할 수 있다. 다음으로, I₀및 P₃모두를 디코딩하였으므로, 디코더는 이제 B₁및 B₂를 디코딩할 수 있다. 디코더가 충분한 수의 영상들을 디코딩했으면, 디스플레이를 위해 영상들을 디스플레이 순서로 재배열할 것이다. 본 예시에서, 디코더는 I-영상들 및 P-영상들에 대한 자신의 디코딩 프로세스를 자신의 디스플레이 프로세스보다 하나의 앵커 영상만큼 지연되도록 함으로써 재배열을 달성할 수 있다(P₃을 디코딩한 후에 I₀의 디스플레이, B₁을 디코딩한 후에 즉시 B₁의 디스플레이, B₂을 디코딩한 후에 즉시 B₂의 디스플레이, P₆를 디코딩한 후에 P₃의 디스플레이, B₄을 디코딩한 후에즉시 B₄의 디스플레이, B₅을 디코딩한 후에 즉시 B₅의 디스플레이, I₉을 디코딩한 후에 P₆의 디스플레이, B₇을 디코딩한 후에 즉시 B₇의 디스플레이 등을 허용함).

도 3 시퀀스를 랜덤하게 액세스하는 경우를 고려한다. 예컨대, 사용자가 디지털 텔레비전 상에서 상술한 바와 같이 인코딩된 프로그램을 시청하는 중에, 갑자기 다른 인코딩된 프로그램으로 채널을 변경하였다고 가정하자. 디코더가 B-영상에서 시퀀스를 액세스하려고 시도하면, 디코더는 B-영상이 참조하는 정보(예컨대, 시간적으로 앞선 I-영상 또는 P-영상)를 갖지 않으므로, B-영상을 디코딩할 수 없을 것이다. 마찬가지로, 디코더가 P-영상에서 랜덤하게 시퀀스를 액세스한다면, P-영상이 참조하는 시간적으로 앞선 P- 또는 I- 영상을 갖지 않고 있으므로, P-영상을 디코딩할 수 없을 것이다. 그러므로, 상술한 인코딩 스키마에 있어서, 디코더는 자신이 I-영상을 탐지할 때까지 시퀀스 내의 영상들을 적절히 디코딩할 수 없을 것이다. 따라서, 통상적으로 디코더가 수행하는 작업은 I-영상의 위치를 파악할 때까지 시퀀스 내에서 전진 검색(scan forward)하는 것이다. I-영상의 위치를 파악하면, 디코딩을 시작하여 I-영상을 적절히 디코딩할 수 있다. 그 후, 탐지 및 하나의 부가적인 다음 앵커 영상을 디코딩한 후에, 디코딩 순서 내의 해당 지점 이후의 모든 영상들이 디코딩 가능하고, 디코딩 순서에서 벗어난 영상들을 디스플레이 순서로 재배열하기 위해 필요한 지연의 정도를 달성했으므로, 그 지점 이후로 양질의 영상을 디스플레이하기 시작할 수 있다.

예컨대, 도 3에서, 디코더가 랜덤하게 영상 P₃에 있는 영상 시퀀스를 액세스한다고 가정하다. 이러한 포인트에서, P₃는 I₀에 의존하고, 디코더는 I₀를 갖고 있지 않으므로, P₃를 디코딩할 수 없을 것이다. 그 후, 시스템은 자신이 디코딩할 수 있음을 알고 있는 I₉영상에 도달할 때까지 대기한다. I₉영상 다음으로, 디코더는 P₆및 I₉에 의존하는 B₇및 B₈을 수신한다. 시스템이 I₉을 갖더라도, P₆를 갖지 않는다. 즉, 디코더가 P₆영상을 수신하더라도, 이 영상은, 차례로 I₀에 의존하는 P₃에 의존한다. 디코더는 P₃를 디코딩할 수 없으므로, P₆, B₇및 B₈을 디코딩할 수 없을 것이다.

시스템이 수신하는 다음 영상은 오직 I₉에만 의존하는 P₁₂이다. 따라서, 시스템은 P₁₂를 디코딩할 수 있다. 시스템이 P₁₂를 디코딩하면, 시스템은 B₁₀및 B₁₁을 수신하여 디코딩할 수 있다. 따라서, 전송 순서에 따라 이 시점에서부터 계속하여 모든 영상들을 적절히 디코딩 및 디스플레이할 수 있다.

따라서, 상술한 바와 같이 인코딩된 것처럼, 인코딩된 시퀀스를 랜덤하게 액세스하는 것은 즉시 디코딩 및 디스플레이 가능한 영상을 항상 제공하지는 못한다.

랜덤 액세스를 돕기위하여 MEPG-2가 제공하는 메커니즘 중의 하나로서 "폐쇄 GOP 플래그(closed GOP flag)"가 알려져 있다. 특히, 개별 I-영상들에 대하여, 인코더는 (I-영상 다음의) 전송 순서 내의 임의의 추후 영상들이 I-영상 이전의 영상을 참조하는지를 나타내는 폐쇄 GOP 플래그를 제공할 수 있다. 즉, 폐쇄 GOP 플래그가 "TRUE"이면, GOP는 종료되고, (임의의 B-영상이 존재하면) 디코딩 순서에서I-영상에 후속하는 임의의 B-영상들은, 디코딩 순서에서 I-영상 이전의 임의의 영상들을 참조하지 않는다. 그러므로, 폐쇄 GOP는 GOP가 독립적이고 디코더에 의해 디코딩될 수 있음을 의미한다. 그러므로, B-영상 내에서, 순서 상으로 이전의 영상을 참조할 수 있더라도, 폐쇄 GOP 플래그는 인코딩 시에 이러한 일이 실질적으로 발생하지 않았음을 나타낸다. 반면, 폐쇄 GOP 플래그가 FALSE이면, 이는 GOP가 종료되지 않았음을 의미하고, B-영상들이 디코더가 갖고 있지 않은 영상들 및 데이터에 의존하고 있음을 디코더에게 알려준다. 따라서, 디코더는 (디코딩 순서에서 후속하는, 다음 앵커 영상 이전의) 다음 B-영상들을 디코딩할 수 없음을 알게 된다. 이러한 경우에, 디코더는 I-영상을 디코딩하고, 다음 B-영상을 건너뛰어 P-영상을 디코딩할 것이다. 이러한 포인트 이후로, 디코더가 회복되어, 비디오 디스플레이 및 임의의 추후 B-영상들의 디코딩을 시작할 수 있다. 도 3에 도시된 예시 시퀀스에서, 영상 I₉및 I₁₈로 시작하는 GOP들은 (디코딩 순서에서 I-영상들의 각각에 바로 뒤따르는 B-영상들이 I-영상 이전의 영상으로부터의 예측을 사용하는지 여부에 따라) 종료될 수도 있고, 종료되지 않을 수도 있는 반면에,영상 I₀로 시작하는 GOP는 종료된다.

비디오 부호화 및 디코딩 표준이 진화하여 더욱 복잡하게 됨에 따라, 사용자의 시청감(experience)을 저하시키지 않고 랜덤 액세스와 같은 기능들을 제공하고 강화하기 위하여 계속적인 시도가 제안되었다. 따라서, 디지털 데이터를 인코딩 및 디코딩하기 위하여 향상된 방법 및 시스템을 제공하는 것과 연관된 관심으로부터 본 발명이 비롯되었다.

본 발명은 데이터를 인코딩 및 디코딩하기 위한 방법 및 시스템에 관한 것이다.

도 1은 종래 기술 인코딩 형식에 따른 I-, B- 및 P- 영상들을 도시하는 도면.

도 2는 디스플레이 순서로 I-, B- 및 P- 영상들을 포함하는 영상 시퀀스를 도시하는 도면.

도 3은 전송 순서로 I-, B- 및 P- 영상들을 포함하고, 랜덤 액세스가 시도되는 영상 시퀀스를 도시하는 도면.

도 4는 랜덤 액세스가 시도되는, I-, B- 및 P- 영상들을 포함하는 영상 시퀀스를 도시하는 도면.

도 5는 일 실시예에 따른, 데이터를 포함하는, I-, B- 및 P- 영상들을 포함하는 영상 시퀀스를 도시하는 도면.

도 6은 두 개의 실시예에 따른 디코딩 방법에서의 단계들을 기술하는 흐름도.

도 7은 일 실시예에 따른 방법에서의 단계들을 기술하는 흐름도.

도 8은 하나 이상의 실시예가 사용될 수 있는 특정한 상황의 이해를 도울 수 있는, 접속 포인트(splice point)를 포함하는 영상 시퀀스를 도시하는 도면.

도 9는 하나 이상의 실시예가 구현될 수 있는 컴퓨팅 환경을 고수준으로 도시하는 도면.

다양한 실시예들은, 영상들의 인코딩된 시퀀스의 영상들 간의 복잡한 의존관계를 허용하는 비디오 부호화 방법과 관련하여 디코딩을 돕는 접근법들을 제공한다. 일부 실시예에서, 랜덤 액세스 포인트(random access point; RAP)의 개념이 이용된다. 랜덤 액세스 포인트는, 시퀀스의 랜덤 액세스를 돕는 정보를 포함하는 영상 시퀀스 내의 효과적인 위치이다. 일부 실시예에서, 랜덤 액세스 포인트는 다른 타입의 데이터를 포함할 수 있다. 일부 실시예에서, 이러한 데이터는 영상 카운트(picture count) 및/또는 시간을 통해 정의될 수 있다. 일부 실시예에서, 랜덤 액세스 포인트의 데이터는 하나 이상의 진입 포인트(entry point) 및 회복 포인트(recovery point)를 포함할 수 있다. 이러한 포인트들은, 디코더가 자신의 디코딩 동작이 정확하고 적절히 디코딩된 영상들을 생성하는 시점을 확인하기 위하여 사용할 수 있는 척도를 제공한다.

개요(Overview)

이하 기술되는 실시예들은 영상들의 인코딩된 시퀀스의 영상들 사이에 복잡한 의존관계를 허용하는 비디오 부호화 표준과 관련하여 디코딩을 돕는 접근법들을 제공한다. 랜덤 액세스 포인트(random access point; RAP)의 개념이 도입된다. 랜덤 액세스 포인트는, 시퀀스의 랜덤 액세스를 돕는 정보를 포함하는 영상 시퀀스 내의 효과적인 위치이다.

랜덤 액세스 포인트는, 디코더가 시퀀스를 랜덤하게 액세스하고, 시퀀스 내의 영상들을 디코딩하는 것을 돕기 위하여 이용할 수 있는 하나 이상의 타입의 정보를 포함할 수 있다. 랜덤 액세스 포인트가 포함할 수 있는 한 가지 타입의 정보는 진입 포인트(entry point; EP)로 불린다. 랜덤 액세스 포인트가 포함할 수 있는 다른 타입의 정보는 회복 포인트(recovery point; RP)로 불린다. 랜덤 액세스 포인트가 한 타입 이상의 정보를 포함할 수 있으므로, 랜덤 액세스 포인트는 진입 포인트 및 회복 포인트 중의 하나 또는 모두를 포함할 수 있다는 의미가 된다. 이하에서, 진입 포인트 및 회복 포인트의 개념이 설명되더라도, 이들 두 타입의 정보는 영상 시퀀스에 포함될 수 있는 특정 타입의 정보의 예시를 구성함에 불과하다는 것을 이해하고, 인식해야 한다. 따라서, 청구된 본 발명의 대상의 사상 및 범위를 벗어나지 않고 다른 타입의 정보가 포함될 수 있다.

진입 및 회복 포인트들은 디코더가 자신의 디코딩 활동이 정확하고 적절히 디코딩된 영상들을 생성하게 될 시점을 확인하기 위하여 사용할 수 있는 척도를 효과적으로 제공한다. 이러한 점은 이하의 설명을 읽어감에 따라 보다 명확해질 것이다. 본 명세서에서 설명된 기술들의 일부는 비디오가 아닌, 예컨대 오디오 데이터와 같은 데이터와 관련하여 사용될 수 있다.

진보적인 실시예들이 사용될 수 있는 예시적인 비디오 부호화 표준(Video Coding Standard)

진보적인 실시예들의 태양을 기술하기 전에, 진보적인 실시예가 사용될 수 있는 하나의 비디오 부호화 표준을 설명하는 것이 유용할 것이다. 이하에서 기술하는 비디오 부호화 표준은 JVT(Joint Video Team) 표준 개발 프로젝트의 작업인데, 상기 프로젝트는 새로운 비디오 부호화 표준의 개발을 위한 ITU-T VCEG(Video Coding Experts Group) 및 ISO/IEC MPEG(Moving Picture Experts Group)의 연합 프로젝트이다. 이전에 VCEG의 ITU-T H.26L 프로젝트에서 진행 중이던 작업을 이어받아, ITU-T 및 MEPG 모두에서의 표준화를 위한 최종 디자인을 만들기 위하여 JVT 프로젝트가 2001년 12월에 창설되었다. JVT/H.26L 표준화 노력의 주요 목표는 강화된 압축 성능과 "대화식"(즉, 비디오 전화) 및 "비대화식"(즉, 저장, 브로드캐스트 또는 스트리밍) 애플리케이션을 처리하는 "네트워크 친화적인" 패킷 기반 비디오 표현의 제공을 달성하기 위한 단순하고 간단한 비디오 부호화 디자인을 정의하는 것이다. 그러므로, JVT/H.26L 디자인은 (비디오 영상 콘텐트의 코어 고압축 표현(core high-compression representation)을 제공하는) 비디오 부호화 계층(Video Coding Layer; VCL) 및 (다양한 네트워크를 통한 전달을 위한 표현을 패키지화하는) 네트워크 추상화 계층(Network Abstraction Layer; NAL)을 포함한다. VCL 디자인은 비율-왜곡 효율(rate-distortion efficiency)에 있어서 중대한 향상을 가져왔는데, 이로 인해 현재의 표준에 비하여 대략 2 정도의 비트 비율이 절감된다. 회선 교환 유선 네트워크(circuit switched wired networks), MPEG-2/H.222.0 전송 스트림, RTP 패킷화를 갖는 IP 네트워크 및 3G 무선 시스템과 같은 현재 및 미래의 네트워크들을 통해 부호화된 비디오 데이터를 전송하기 위하여 NAL 디자인들이 개발되었다. 승인되면, JVT 표준은 ITU-T 권고안 H.264 및 ISO/IEC 14496-10 "고도 비디오 부호화(advanced video coding)"로 지정될 것으로 기대된다.

이하 기술될 비디오 부호화 표준도 여전히 I-, B- 및 P-영상들의 개념을 이용하지만, 상이한 그리고 더욱 복잡한 방식으로 이들을 정의한다. 현재 기술되는 비디오 부호화 표준을 인식하기 위한 효율적인 관점은 상술한 MPEG-2 관점이다. 다음의 인코딩/디코딩 패러다임을 위해 제공되는 MPEG-2 표준은 이하와 같이 간략히 요약된다는 점을 상기해야 한다.

ㆍ I-영상은 임의의 다른 영상들(예컨대, P- 및 B-영상들)과 독립적으로 디코딩될 수 있고, 디코딩 순서에서 GOP 내의 제1 영상은 I-영상이다.

ㆍ P-영상은 자신의 디코딩을 가능하게 하기 위해 정확히 하나의 이전에 압축 해제된 앵커 영상(예컨대, I-영상들 또는 P-영상들)으로부터의 데이터를 필요로 하고, P-영상의 디코딩에 사용된 앵커 영상은 순서 상에서 P-영상을 선행하는 마지막 앵커 영상이며, 그것은 전송 순서 및 디스플레이 순서 모두에서 P-영상을 선행한다.

ㆍ B-영상은 자신의 디코딩을 가능하게 하기 위해 두 개의 앵커 영상들(예컨대, I-영상들 또는 P-영상들)로부터의 데이터를 필요로 한다. 이들은 전송 순서 상에서 B-영상을 선행하는 마지막 두 개의 앵커 영상들인데, 이들 중의 제1 영상은 디스플레이 순서 상에서 선행하는 영상(preceding picture)이고, 제2 영상은 디스플레이 순서 상에서 후행하는 영상(succeeding picture)이다.

비디오 인코딩 및 디코딩을 위한 JVT 패러다임에 따르면, I-영상은 여전히 독립적으로 디코딩 가능한 영상을 나타낸다. 그러나, P-영상은 다소 다르게 정의된다. 새로운 표준에 따르면, 예전에는 P-영상이 오직 하나의 이전 참조 영상만을 가졌던 것에 반해, 하나 이상의 참조 영상을 가질 수 있다. 특히, P-영상의 각 영역은 하나의 참조 영상을 갖지만, 집합적으로 P-영상의 개별 영역들은 상이한 영상들을 참조할 수 있다. 따라서, 전체적으로 개별 P-영상은 상이한 영상들을 참조할 수 있다. 예컨대, 도 2의 시퀀스를 사용하면, 이제 영상 P₆가 영상 P₃및 I₀모두를 참조하는 것이 가능하다. 다수의 영상들을 참조하는 것 이외에도, 개별 P-영상은 또한 디스플레이 순서 상에서 미래의 영상들을 참조할 수 있다. 예컨대, P₆영상의 일부 영역들은 영상 I₀, P₃및 I₉으로부터 예측될 수 있는데, 영상 I₉은 영상 P₆에 대하여 디스플레이 순서 상에서 미래의 영상이다. 그러므로, P-영상이 의존할 수 있는 영상들의 수 및 디스플레이 순서 상에서 이러한 영상들의 순서는 영상들을 저장하는 디코더 용량의 제한 내에서 거의 임의적이다.

부가하여 B-영상도 다소 상이하게 정의된다. 우선 이전의 정의에서, B-영상은 두 개의 참조 영상들을 가졌다. 이러한 종래 디자인에서, 영상 B₁과 같은 B-영상의 각 영역의 디코딩 프로세스는 영상 I₀또는 P₃와 같은, 디스플레이 순서 상에서 자신의 선행 또는 후행 앵커 영상의 영역을 참조하거나, 이들 간의 수학적인 평균을 얻기 위해 이들 모두에서의 영역을 참조할 수 있다. 새로운 B-영상 정의에서도, 이러한 개념이 유지되는데(즉, 각각의 영역은 이전에 디코딩된 영상의 하나의 특정 영역 또는 두 개의 이러한 영역들의 평균을 참조할 수 있음), 이제는 임의의 수의 영상들(즉, 디코딩 순서에서 B-영상을 선행하는 하나 이상의 영상들)로부터의 B-영상의 각각의 영역의 디코딩을 위해 이러한 하나 또는 두 개의 영역을 선택할수 있도록 일반화되었다. 그러므로, 오직 두 개의 영상만을 참조하는 대신에, B-영상은 임의의 합리적인 수의 영상들 및/또는 임의의 합리적인 수의 영상들의 수학적인 조합을 참조할 수 있다. 그러므로, 예컨대 도2 시퀀스를 참조하면, 영상 B₂는 영상들 I₀, P₃및 I₉을 참조할 수 있고, 이러한 세 개의 참조 영상들 사이에서, B-영상 내의 임의의 영역을 디코딩하기 위해, 이러한 참조 영상들 중의 하나의 단일 영역 또는 이러한 영상들의 두 개의 영역들 사이의 수학적인 평균을 참조할 수 있다.

부가적으로, 기존 표준에서는 B-영상들이 다른 영상들의 디코딩을 위한 앵커 영상들로 사용되지 않았다는 점에서, B-영상은 기존 표준과 다르다. 이하 기술되는 표준에 따르면, B-영상들은 참조로서의 사용을 위해 저장될 수 있고, 다른 영상들의 디코딩 프로세스는 그들에 의존할 수 있다. 예컨대, 도 2의 영상 B₄를 위한 디코딩 프로세스는 영상들 B₂, P₃, B₅및 P₆의 콘텐트를 참조할 수 있다.

매우 일반화된 형식이긴 하지만, 신규 표준에 유지되는 기존의 표준으로부터의 한 가지 개념은 전송 순서(또는 디코딩 순서라고도 불림) 및 디스플레이 순서 사이의 구분이다. 새로운 초안 표준에서, 다른 영상들의 디코딩 프로세스에서 앵커 영상들로 사용되는 임의의 영상들은, 그들을 참조하는 영상 또는 영상들에 앞서 디코더로 전송된다. 영상들이 데이터 의존성의 순서에 따라 송신된다는 제한을 제외하면, 참조 또는 디스플레이를 위하여 영상들이 더 이상 요구되지 않을 때까지 영상들을 저장하기 위한 디코더의 용량을 제외하고는, 영상의 전송 순서에 대한 제한이 거의 존재하지 않는다. 그러므로, 영상 P₆가 영상들 P₃, I₀및 I₉을 참조한다면, 디코딩 순서에서 P₆는 P₃, I₀및 I₉의 다음에 와야 한다. 영상 B₁이 영상들 I₀및 P₃를 참조한다면, 디코딩 순서에서 B₁은 I₀및 P₃의 다음에 와야 한다. 영상 B₂가 영상들 I₀, P₃및 I₉을 참조한다면, 디코딩 순서에서 B₂는 I₀, P₃및 I₉의 다음에 와야 한다. 그리고, 영상 B₄가 영상들 B₂, P₃, B₅및 P₆를 참조한다면, 디코딩 순서에서 B₄는 B₂, P₃, B₅및 P₆의 다음에 와야 한다. 이러한 제한을 따르는 한 가지 전송 순서가 도 4에 도시되어 있다.

그러므로, 이러한 새로운 표준을 다음과 같이 간략히 요약할 수 있다.

ㆍ I-영상들은 독립적으로 디코딩 가능하다.

ㆍ I-영상들이 필수적으로 디스플레이 순서로 송신되지는 않는다.

ㆍ P-영상들은 하나보다 많은 영상을 참조할 수 있다. 즉, P-영상의 각각의 상이한 영역은 상이한 영상을 참조할 수 있다.

ㆍ P-영상들은 디코딩 순서 상으로는 오직 이전 영상들만을 참조할 수 있을지라도, 디스플레이 순서에서 과거의 영상 뿐만 아니라, 디스플레이 순서에서 미래의 영상도 참조할 수 있다.

ㆍ B-영상들은 둘보다 많은 참조 영상들을 참조할 수 있다. 즉, B-영상의 각각의 영역은 디코딩 순서에서 다수의 이전 영상들 중의 하나로부터의 한 영역 또는 두 개의 이러한 영역들의 수학적 평균을 참조할 수 있다.

ㆍ B-영상들은 디코딩 순서에서 이전의 영상들만을 참조할 수 있지만, 디스플레이 순서에서 B-영상을 선행하는 한 세트의 영상들, 또는 디스플레이 순서에서 B-영상을 후행하는 한 세트의 영상들, 또는 B-영상을 선행하는 일부 영상들 및 B-영상을 후행하는 일부 영상들을 포함하는 한 세트의 영상들을 참조할 수 있다.

ㆍ B-영상들은 다른 영상들의 디코딩에서의 참조를 위한 앵커 영상들로서 사용될 수 있는데, 그 예로, B-영상들은 P-영상을 예측하기 위하여 사용될 수 있다.

상술한 표준에 따라 인코딩된 영상 시퀀스를 랜덤하게 액세스하려는 시도의 문제를 고려한다. 예컨대, 디코더가 (상술한 표준에 따라 인코딩된) 도 3 시퀀스를 랜덤하게 액세스하려고 시도한다고 가정한다. 액세스가 B₈에서 발생했다고 가정한다. MPEG-2 접근법에서와 같이, 하나의 영상이 선행하고, 다음 I-영상으로 전진 검색한다면, 많은 이후의 영상들이 디코더가 갖고 있지 않은 영상들에 여전히 의존할 수 있으므로 이 영상은 쓸모가 없을 수도 있다. 가정으로, 예컨대, P₆및 P₁₂가 I₉영상에 의존하는 이외에도 I₀-영상에 의존할 수 있다. 그렇다면, 디코더는 디코딩된 선행 I-영상을 가지고 있음에도 불구하고 P-영상들을 디코딩할 수 없을 수도 있다. 또한, 영상들은 디스플레이를 위해 필요한 시점에 훨씬 앞서서 송신되므로, 랜덤 액세스를 사용하는 디코더는 자신이 마주치는 모든 영상들을 디코딩할 수 있을지라도, 디스플레이될 필요가 있는 모든 영상들을 가진다는 보장을 할 수 없다.

MPEG-2 시나리오에서, 폐쇄 GOP 플래그를 사용하면 상황은 훨씬 단순해진다. 즉, 디코더가 ClosedGOPflag = 1인 랜덤 액세스 포인트에서 디코딩을 시작했다면,다음 I-영상을 디코딩함으로써 해당 영상 및 디코딩 순서에서의 모든 이후의 영상들을 디코딩 및 디스플레이 할 수 있음을 확신하게 된다. 또한, 디코더가 ClosedGOPflag = 0인 랜던 액세스 포인트에서 디코딩을 시작했다면, 다음 I-영상을 디코딩함으로써 해당 P-영상으로 시작하는 시퀀스 내의 모든 영상 타입들의 모든 나머지 영상들을 디코딩 및 디스플레이 할 수 있음을 확신하게 된다. 이는 상술한 표준에 대해서 충분히 유연하지는 않다. 폐쇄 GOP 플래그만을 이용할 수 있는 경우, 새로운 초안 표준의 유연한 참조 기능이 이러한 행위를 부여하기 위하여 손상되지 않는다면, I-영상의 뒤에 오는 이후 비디오의 임의의 P-영상들 또는 B-영상들이 디코딩될 수 있다는 보증이 존재하지 않는다. (I-영상들을 제외하고) 디코더는 단순히 비디오의 디코딩 및 디스플레이를 시작할 수 있는지를 결정하기 위한 어떠한 방법도 갖지 않는다. 디코더가 단순히 갖고 있지 않은 영상을 참조해야 할 필요가 있는 새로운 영상의 일부 영역을 디코딩하려는 상황을 갑자기 마주친 경우에 디코더는 일부 비디오를 디코딩하려고 시도하는 중일 수도 있으므로, 디코더는 임의의 P- 또는 B-영상들을 디코딩하려고 시도하는 것조차 주의해야 한다.

그러므로, 개방 GOP 플래그를 제공하는 기존 접근법은, 단순히 바로 위에서 기술한 것과 같은 복잡한 비디오 부호화 표준을 위한 진정한 랜덤 액세스 기능을 제공하기에 충분한 정보가 아니다. 디코더가 실질적으로 영상들을 디코딩 및 디스플레이 할 수 있는 시점의 보다 완벽한 표시가 필요하다.

랜덤 액세스 포인트들

일 실시예에 따르면, 영상 시퀀스는 하나 이상의 랜덤 액세스 포인트(RAP)를 제공받는다. 랜덤 액세스 포인트는 시퀀스의 랜덤 액세스를 용이하게 하는 정보를 포함하는 영상들의 시퀀스 내의 효과적인 위치이다.

예로서, 일반적으로 500에서의 예시적인 영상들의 시퀀스를 도시하는 도 5를 고려한다. 이 시퀀스는 하나 이상의 랜덤 액세스 포인트 및 시퀀스의 랜덤 액세스를 용이하게 하는 연관 정보를 제공하는 인코더로 인코딩되었다. 이 경우, 랜덤 액세스 포인트(502)가 표시된다. 랜덤 액세스 포인트는 하나 이상의 진입 포인트 및 회복 포인트의 지정(specification)의 설명 모두를 포함할 수 있음을 상기해야 한다. 이러한 특별한 예에서, 랜덤 액세스 포인트는 회복 포인트(RP; 506)와 연관된 정보뿐만 아니라, 진입 포인트(EP; 504)와 연관된 정보를 포한한다. 진입 및 회복 포인트들은 디코더가 자신의 디코딩 동작이 정확하고 적절하게 디코딩된 영상들을 생성하는 시점을 확인하기 위해 사용할 수 있는 척도를 제공한다.

대안적인 실시예에서, 비디오 시퀀스로의 랜덤 액세스를 용이하게 하는 한 세트의 정보가 영상 시퀀스 내의 특정 위치에 밀접하게 결합되지 않은 데이터로 구체화될 수 있다. 예컨대, 시작하려는 디코딩 프로세스를 위한 비디오 스트림 내의 시작 포인트를 설정하고, 디스플레이 가능한 비디오 콘텐트의 획득이 표시되는 비디오 스트림 내의 이후의 포인트(later point)를 설정하는 랜덤 액세스 보조 데이터(random access facilitation data)는 영상들의 시퀀스 내의 특정 위치에서의 비디오 스트림 내에서 표시되기 보다는, 개별 데이터 파일 또는 데이터 저장 영역에 포함될 수 있다.

진입 포인트들(Entry Points)

진입 포인트에서 또는 그 이후의 일부 포인트에서 적절히 디코딩 및 디스플레이 가능한 영상들을 갖기 위하여, 진입 포인트들은 디코딩 프로세싱을 위한 시작 위치 또는 랜덤 액세스 포인트 위치와 같은 일부 정의된 위치에 대하여 발생해야 하는 디코딩의 양과 관련된 척도를 제공한다. 진입 포인트가 정의될 수 있는 수 많은 방법이 존재한다. 진입 포인트를 정의하는 한 가지 방법은 본 명세서에서 "사전 역할 카운트(pre-roll count)"라고 언급되는 것을 이용한 방법이다. 사전 역할 카운트는, 일부 정의된 영상 및 (디스플레이 순서에서, 디코딩 순서에서, 또는 디스플레이 순서 및 디코딩 순서 모두에서) 모든 이후의 영상들이 적절히 디코딩될 수 있음을 확인하기 위하여 일부 정의된 영상 이전에 얼마나 많은 영상들을 마주치고 디코딩하여야 하는가에 대한 표시이다.

진입 포인트의 정의를 위해 정의된 영상이 랜덤 액세스 포인트 또는 환언하면, "현재 영상(current picture)"과 연관된 영상인 경우를 고려한다. 이러한 경우에, 랜덤 액세스 포인트는, 그 포인트 이후로의 적절한 디스플레이를 위하여 현재 영상 및 이후의 영상들이 디코딩된다면, 현재 영상 이전의 세 개의 영상들을 마주치고 디코딩할 필요가 있음을 나타낼 수 있을 것이다. 이러한 예에서, 디코더가 "랜덤 액세스"로 지정된 진입 포인트 이전의 영상에서 시퀀스(500)에 랜덤하게 액세스하고, 자신이 수신하는 모든 영상들을 디코딩하려고 시도(이는 "최선 노력(best efforts)" 디코딩으로 언급되며, "최선 노력 디코딩(Best EffortsDecoding)" 이라는 섹션에서 자세히 기술됨)한다고 가정한다. 이러한 경우에, 디코더는, 자신이 랜덤하게 시퀀스를 액세스했던 영상 이후의 영상들을 마주치고, 디코딩하려고 시도했던 이유로, 현재 영상 및 모든 이후의 영상들이 적절히 디코딩되고 디스플레이 될 수 있음을 알 것이다.

본 예시에서, 랜덤 액세스 포인트의 위치와 구분되는 회복 포인트를 시퀀스가 필수적으로 사용해야 할 필요가 있는 것은 아니라는 점을 알아야 한다. 즉, 랜덤 액세스 포인트 내의 진입 포인트 정보는, 본 실시예에서 디코더에 의해 디코딩되는 특정 영상에서 디코딩이 시작된다면, 현재 영상 및 모든 이후의 영상들이 적절히 디코딩되고, 디스플레이될 것이라는 점을 나타낸다.

진입 포인트를 정의할 수 있는 다른 방법은 시간을 통한 것이다. 예컨대, 랜덤 액세스 포인트 이전에 1/2초 또는 1/4초에 디코딩을 시작했다면, 현재 영상 및 모든 이후의 영상들이 적절히 디코딩되고 디스플레이 될 수 있다는 점을 디코더에 나타내는 방식으로 진입 포인트가 정의될 수 있다.

회복 포인트들(Recovery Points)

회복 포인트는 디코딩 프로세싱 동안 마주치게 될 비디오 시퀀스 내의 위치 또는 적절히 디코딩 및 디스플레이 가능한 영상들을 갖기 위한 랜덤 액세스 포인트의 위치와 같은 일부 정의된 위치 이후에 얼마나 많은 디코딩이 발생해야 하는지에 대한 척도를 제공한다. 회복 포인트는 영상 카운트(picture count) 또는 시간을 통해 정의될 수 있다. 예컨대, 랜덤 액세스 포인트(502)에서, 디코더가 랜덤 액세스 포인트에서 디코딩을 시작했다면, 그로부터 1/2초 후에 모든 영상들이 적절히 디코딩 및 디스플레이될 것임을 나타내도록 회복 포인트를 정의할 수 있다. 대안으로, 회복 포인트는 영상 수를 통해 정의될 수 있다. 즉, 랜덤 액세스 포인트는 현재 영상으로부터 3번째 영상으로 회복 포인트를 정의할 수 있다. 그러므로, 디코더가 다음 3개의 영상들을 디코딩하려고 시도하면, 다음의 후속 영상들은 적절히 디코딩 및 디스플레이될 수 있을 것이다.

진입 포인트들 및 회복 포인트들의 조합(Combining Entry Points and Recovery Points)

일 실시예에 따르면, 랜덤 액세스 포인트는 진입 포인트 및 회복 포인트 모두와 연관된 정보를 포함할 수 있다. 이러한 경우에, 랜덤 액세스 포인트는, 디코더가 과거에 일부 측정된 위치(measured location)(즉, 진입 포인트)에서 디코딩 작업을 시작했다면, 미래의 일부 측정된 위치(즉, 회복 포인트)에서 모든 영상들이 적절히 디코딩 및 디스플레이 될 것임을 디코더에게 나타낼 수 있을 것이다. 예컨대, 진입 포인트 정보는, 디코딩이 두 개의 영상 전에 시작되었다면, 지금으로부터 1/4초 후에, 회복 포인트에서 모든 영상들이 적절히 디코딩 및 디스플레이 될 수 있을 것임을 나타낼 수 있다.

도 6은 일 실시예에 따른 방법의 단계들을 기술하는 흐름도이다. 기술된 방법은 적절히 구성된 인코더에 따라 구현될 수 있다.

단계(600)는 하나 이상의 랜덤 액세스 포인트를 제공하기 위하여 비디오 시퀀스의 개별 영상들을 처리한다. 인코더는 자신이 개별 영상들을 인코딩하는 것처럼 이러한 단계를 구현할 수 있다. 개별 영상들 사이의 의존성을 앎으로써, 인코더는 랜덤 액세스 포인트들을 정의하는 위치에 있게 된다. 예컨대, 인코더는 랜덤 액세스 포인트와 연관된 영상을 디코딩하기 위하여 오직 두 개의 이전 영상들만이 필요하다는 점을 알 수도 있다. 이러한 지식으로 인해, 인코더는, 디코더가 현재 영상을 적절히 디코딩 및 디스플레이하기를 원한다면, 이전 두 개의 영상들을 디코딩하려고 시도해야 함을 디코더에게 나타내는 사전 역할 카운트 또는 진입 포인트를 정의할 수 있다. 대안적으로 또는 부가적으로, 인코더는, 디코더가 현재 영상에서 디코딩을 시작한다면, 현재 영상으로부터 1/4초 후에, 모든 이후의 영상들이 적절히 디코딩 및 디스플레이 될 수 있다는 사실을 알 수 있다.

단계(602)는 하나 이상의 랜덤 액세스 포인트를 갖는 인코딩된 영상 시퀀스를 하나 이상의 디코더에 전송한다. 이 단계는 임의의 적절한 전송 매체를 사용하는 적절한 방식으로 구현될 수 있다.

디코더 동작(Decoder Operation)

일 실시예에 따르면, 디코더가 상술한 랜덤 액세스 포인트들과 관련하여 동작할 수 있는 두 가지 기본적인 방법이 존재한다. 제1 방법은 "최선 노력 디코딩(best efforts decoding)"으로 언급되고, 제2 방법은 "보장 디코딩(assured decoding)"으로 언급되는데, 각각은 자신의 개별 제목을 갖는 섹션에서 이하 설명된다.

최선 노력 디코딩(Best Efforts Decoding)

디코더가 최선 노력 디코딩을 수행하도록 구성된 경우, 디코더는 자신에게 보이는 모든 영상들 및 영상 영역들을 디코딩하려고 시도할 것이다. 디코더가 자신이 갖고 있지 않은 영상 또는 영상 영역에 대한 참조를 발견한 경우, 디코더는 빠진 영상(missing picture)에 대한 참조를 중간 회색, 검은색 또는 다른 지정된 또는 미지정된 값과 같은 값으로 채워진 영상으로의 참조로 취급할 수 있다. 대안으로, 디코더는 디코딩될 영상 또는 영역을 중간 회색, 검은색 또는 다른 지정된 또는 미지정된 값과 같은 일부 값으로 초기화할 수 있다. 그 후, 디코더는 모든 영상들을 디코딩하려고 시도할 수 있지만, 랜덤 액세스 포인트에 나타난 조건들(즉, 진입 포인트 및/또는 회복 포인트와 연관된 조건들)이 만족된 이후에 콘텐트에서 영상들이 완전히 올바르다고 간주할 것이다.

최선 노력 방법을 사용함으로써 인코더들은 이후의 영상들을 어떻게 인코딩할 것인지에 대한 최대 융통성을 제공받는데, 이로 인해 디코더가 비디오 스트림을 디코딩할 수 있다면 전혀 수행하지 않았을 수 있는 작업들로 인한 부담을 디코더에게 필수적으로 지우지는 않는다. 또한, 이러한 방법으로 인해 시퀀스 내에서 오직 P- 또는 B-영상들만을 사용하는 랜덤 액세스 기능이 가능해진다. 그러므로, 랜덤 액세스 포인트들은 랜덤 액세스 포인트에서 또는 그 이후에서 I-영상들의 존재를 요구할 필요가 없다.

보장 디코딩(Assured Decoding)

보장 디코딩은, 디코더가 자신이 디코딩할 수 있다는 사실을 아는 영상들만을 디코딩하는 디코딩 패러다임을 의미한다. 예컨대, 디코더가 I-영상을 발견하면, 디코더는 자신이 디코딩할 수 있음을 알고 있으므로 I-영상을 디코딩한다. 반면, 디코더가 P-영상을 발견하면, 디코더는 자신이 P-영상을 디코딩할 수 있다는 것을 반드시 알고 있는 것은 아니므로, 디코딩을 시도하지 않을 것이다. 따라서, 예로서 도 5 시퀀스를 사용하면, 디코더는 진입 포인트(504)에서 시작하여, 랜덤 액세스 포인트 내의 조건들이 만족될 때까지 I-영상들을 디코딩할 것이다. 조건들이 만족되는 지점에서, 디코더는 나머지 영상들이 이용 가능하지 않은 데이터에 대한 참조를 포함하지 않는다는 확신을 가지고 비 I-영상들(non-I-pictures)을 디코딩하려고 시도할 것이다.

예시적인 디코딩 방법들(Exemplary Decoding Methods)

도 7은 일 실시예에 따른 방법에서의 단계들을 기술하는 흐름도이다. 흐름도는 상술한 "최선 노력 디코딩" 및 "보장 디코딩" 패러다임 모두를 설명한다. 이러한 방법들은 임의의 적절히 구성된 디코더와 관련하여 구현될 수 있다.

단계(700)는 상술한 기술에 따라 인코딩된 인코딩 영상 시퀀스(encoded picture sequence)를 수신한다. 최선 노력 디코딩에 따라, 단계(702)는 시퀀스의 영상을 디코딩하기 시작한다. 디코더는 위의 "최선 노력 디코딩" 섹션에서 설명한 기술과 같은 기술을 사용하여 자신의 능력의 최선을 다해 각각의 영상을 디코딩하려고 시도한다. 단계(704)는 영상 시퀀스와 관련하여 랜덤 액세스 포인트와 연관된 조건들을 확인한다. 이 단계가 단계(702) 다음에 오는 것으로 도시되어 있지만, 꼭 그럴 필요는 없다. 일 실시예에서, 단계(704)에 의해 확인되는 조건들은 진입 포인트, 회복 포인트 또는 양자 모두를 통해 정의될 수 있다. 단계(706)는 영상 또는 영상 영역이 미지인지 판단한다. 영상 또는 영역이 디코더가 갖고 있지 않은 다른 영상 또는 영상 영역을 참조한다면, 영상 또는 영역은 미지일 수 있다. 영상 또는 영역이 미지이면, 단계(708)는 참조되는 빠진 영상 또는, 디코딩될 영상 또는 영역을 소정의 값으로 초기화하고, 단계(712)로 분기하여 그 지점 이후로 디코딩 프로세스를 계속한다. 소정의 값의 예는 위에서 제공되었다. 반면, 영상 또는 영역이 기지이면(known)(즉, 디코더가 갖고 있는 영상 또는 영역을 참조하거나 참조 영상이 필요하지 않다면), 단계(712)는 곧바로 디코딩 프로세스를 계속한다. 단계(714)는 랜덤 액세스 포인트 내의 조건들이 만족되었는지 판단한다. 조건들이 만족되지 않았으면, 방법은 단계(706)로 반환되어 디코딩 프로세스를 계속할 수 있다. 반면, 랜덤 액세스 포인트 내의 조건이 만족되었으면, 단계(716)는 이후의 영상들이 콘텐트 내에서 완전히 또는 대략적으로 올바르다고 간주할 수 있다.

단계(718)는 상술한 보장 디코딩 프로세스와 연관된 단계들을 기술한다. 따라서, 단계(718)는 디코딩 가능하다는 것을 자신이 알고 있는 영상들만(예컨대, I-영상들만)을 디코딩하기 시작한다. 단계(720)는 랜덤 액세스 포인트와 연관된 조건들을 확인한다. 이 단계가 단계(718) 다음에 오는 것으로 도시되어 있지만, 꼭 그럴 필요는 없다. 단계(722)는 랜덤 액세스 포인트 내의 조건들이 만족되었는지판단한다. 조건들이 만족되지 않았다면, 단계(724)는 자신이 디코딩 가능하다는 것을 알고 있는 영상들 만을 계속하여 디코딩한다. 반면, 랜덤 액세스 포인트 내의 조건들이 만족되었다면, 단계(726)는 모든 이후의 영상들을 디코딩한다.

비디오 스플라이싱(Video Splicing)

디코딩 프로세스를 용이하게 하기 위하여, 비디오 스플라이싱과 관련하여 상술한 기술들을 사용할 수 있다. 이러한 설명을 돕기 위해, 영상 시퀀스(800)를 나타내는 도 8을 고려한다. 영상 B₈까지 및 이를 포함하는 영상들이 상업용과 같은 비디오의 제1 부분에 속하고, I₁₂로부터 그 이후의 영상들이 영화에 속한다고 가정한다. 즉, 상업용 시퀀스 및 영화 시퀀스가 표시된 접속 포인트(splice point)에서 함께 접속되었다. 이 경우, 비디오 스트림들 사이에서 상업용과 연관된 스트림으로부터 영화와 연관된 스트림으로의 전환이 존재한다.

이제, I₁₂를 포함한 그 이후의 영상 스트림이 개방 GOP인 경우에 발생할 수 있는 문제를 고려한다. 영상들 B₁₀및 B₁₁은 접속 포인트 이전에 영상 P₉의 존재를 가정할 수 있다. 영상 P₉이 존재하더라도, 영화와 연관된 영상이 아니다. 오히려, 상업용과 연관된 영상이다. 그러므로, 디코더가 P₉을 사용하여 B₁₀및 B₁₁을 디코딩한다면, 영상들은 적절히 디코딩되지 않을 것이다.

MPEG-2에 있어서는, 미완성 접속 포인트(crude splice point)를 나타내기 위해 깨진 링크 플래그(broken link flag)로 알려진 1 비트 플래그가 사용된다. 디코더가 깨진 링크 플래그를 발견하면, 디코더는 미완성 접속 포인트가 존재하는 것과 두 개의 B-영상들 중 어떤 것도 디코딩해서는 안되고, 영상들을 디코딩 하더라도 다른 목적으로 이들을 사용하려고 시도해서는 안된다는 것의 표시로서 플래그를 사용한다.

상술한 비디오 부호화 표준들에서의 복합 참조(compelx reference)들이 영상 시퀀스로의 랜덤 액세스들을 복잡하게 하는 것과 아주 동일한 방식으로, 복합 참조는 또한 디지털 방식으로 접속된 영상 시퀀스들의 처리를 복잡하게 한다. 즉, 영상 P₁₅가 영상 P₉을 역으로 참조하여 두 개의 B-영상들이 부적절하게 디코딩될 뿐만 아니라, P-영상도 부적절하게 디코딩될 수 있다.

이러한 경우에, 디코더가 적절히 디코딩 가능한 영상들을 회복하기 위해 가장 중요한 것은 참조를 위해 어떤 인코더가 사용되었는가 하는 점이다. 그러므로, 디코더가 결국 합리적인 영상을 회복할 수 있도록 참조 작업을 수행하는 것은 전적으로 인코더에 달려 있다.

그러므로, 이러한 실시예에서, 인코더가 접속을 수행하는 임의의 I-영상에서, 디코딩 프로세스를 용이하게 할 수 있는 정보를 포함하는 랜덤 액세스 포인트를 제공할 수 있다. 특히, 인코더는 하나 이상의 진입 포인트 및 회복 포인트를 제공하여, 접속 포인트에 가까운 영상들을 적절히 디코딩 및 디스플레이하기 위하여 사용할 수 있는 정보를 디코더에게 제공할 수 있다. 따라서, 예컨대, 영상 I₁₂에서, 인코더는 접속 동작으로부터의 적절한 회복 포인트가 1/2초 앞서는 것을 나타내는 랜덤 액세스 포인트와 함께 이러한 미완성 스플라이싱이 발생함을 나타내는 표시를 제공할 수 있다. 그러므로, 디지털 방식으로 접속된 영상 시퀀스와 관련하여, 디코더는 자신이 적절한 영상들을 디코딩 및 디스플레이하기 시작할 수 있는 시점을 알게 될 것이다.

예시적인 컴퓨팅 환경(Exemplary Computing Environment)

도 9는 상술한 시스템 및 관련 방법들이 구현될 수 있는 적합한 컴퓨팅 환경(900)의 예를 도시한다. 기술될 다양한 컴포넌트들은 적합하게 구성된 디코더 및 인코더 모두를 구현하기 위하여 사용될 수 있다.

컴퓨팅 환경(900)은 적합한 컴퓨팅 환경의 일 예일 뿐이고, 상술한 인코딩/디코딩 시스템의 사용 또는 기능의 범위에 대하여 어떠한 제한을 가하려는 의도가 아님을 인식해야 한다. 컴퓨팅 환경(900)은 예시적인 컴퓨팅 환경(900)에 도시된 컴포넌트들 중의 임의의 하나 또는 이들의 조합에 관련된 요구 조건 또는 의존성을 가지는 것으로 해석되어서는 안 된다.

기술된, 다양한 실시예들은 다수의 다른 범용 또는 전용 컴퓨팅 시스템 환경 또는 구성과 동작할 수 있다. 미디어 처리 시스템과의 사용을 위해 적합한 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예는 개인용 컴퓨터, 서버 컴퓨터, 신 클라이언트(thin client), 식 클라이언트(thick client), 핸드-헬드(hand-held) 또는 랩탑(laptop) 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱박스, 프로그램 가능 소비자 전자제품(programmable consumer electronics), 네트워크 PC, 미니 컴퓨터, 메인프레임 컴퓨터 및 이상의 시스템 및 장치 중의 임의의 것을 포함하는 분산 컴퓨팅 환경을 포함하지만, 이에 제한되지는 않는다.

일정한 구현예에서, 시스템 및 관련 방법들은 컴퓨터에 의해 실행되는, 프로그램 모듈과 같은 컴퓨터 실행 가능 명령어들과 관련하여 잘 기술될 것이다. 일반적으로, 프로그램 모듈들은 특정한 작업을 수행하거나 특정 추상 데이터 타입을 구현하는 루틴, 프로그램, 개체, 컴포넌트, 데이터 구조 등을 포함한다. 또한, 실시예들은 통신 네트워크를 통해 링크된 원격 프로세싱 장치에 의해 작업이 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 지역 및 원격 메모리 저장 매체(local and remote memory storage media) 모두에 위치할 수 있다. 기술된 컴퓨팅 시스템의 컴포넌트들은 상술한 바와 같이 기능하는 인코더 및 디코더를 구현하기 위하여 사용될 수 있다.

도 9의 도시된 예시적인 실시예에 따르면, 컴퓨팅 시스템(900)은 하나 이상의 프로세서 또는 프로세싱 유닛(902), 시스템 메모리(904) 및 시스템 메모리(904)를 포함하는 다양한 시스템 컴포넌트들을 프로세서(902)에 연결시키는 버스(906)를 포함하는 것으로 도시된다.

버스(906)는 메모리 버스 또는 메모리 제어기, 주변 버스(peripheral bus), 가속 그래픽 포트(accelerated graphics port) 및 프로세서 또는 다양한 버스 아키텍쳐 중의 임의의 것을 사용하는 로컬 버스를 포함하는 여러 유형의 버스 구조(busstructure)들 중의 임의의 하나 이상을 나타낸다. 제한이 아닌 예로서, 이러한 아키텍처는 ISA(Industry Standard Architecture) 버스, MCA(Micro Channel Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Standards Association) 로컬 버스 및 메자닌 버스(Mezzanine bus)로도 잘 알려진 PCI(Peripheral Component Interconnects) 버스를 포함한다.

컴퓨터(900)는 전형적으로 다양한 컴퓨터 판독 가능 기록 매체를 포함한다. 이러한 매체는 컴퓨터(900)에 의해 지역적으로 및/또는 원격으로 접근 가능한 임의의 이용 가능한 매체일 수 있고, 휘발성 및 비휘발성 매체(non-volatile media), 분리식(removable) 및 고정식 매체(non-removable media) 모두를 포함한다.

도 9에서, 시스템 메모리(904)는 RAM(Random Access Memory; 910)과 같은 휘발성 메모리 및/또는 ROM(Read Only Memory; 908)과 같은 비휘발성 메모리의 형태로 컴퓨터 판독 가능 기록 매체를 포함한다. 기동(start-up) 동안과 같이, 컴퓨터(900) 내의 요소 간에 정보의 전송을 돕는 기본 루틴을 포함하는 BIOS(Basic Input/Output System; 912)는 ROM(908)에 저장된다. 전형적으로, RAM(910)은 프로세싱 유닛(902)에 의해 현재 동작되고/되거나 즉시 접근 가능한 프로그램 모듈 및/또는 데이터를 포함한다.

컴퓨터(900)는 다른 분리식/고정식, 휘발성/비휘발성 컴퓨터 저장 매체를 더 포함할 수 있다. 예컨대, 도 9는 고정식, 비휘발성 자기 매체(도시되지 않음, 전형적으로 "하드 드라이브"라고 함)로부터의 판독 및 이 매체로의 기록을 위한 하드 디스크 드라이브(928), 분리식, 비휘발성 자기 디스크(932)(예컨대, "플로피 디스크")로부터의 판독 및 이 디스크로의 기록을 위한 자기 디스크 드라이브(932) 및 CD-ROM, DVD-ROM 또는 다른 광 매체와 같은 분리식, 비휘발성 광 디스크(936)로부터의 판독 및 이 디스크로의 기록을 위한 광 디스크 드라이브(934)를 도시한다. 하드 디스크 드라이브(928), 자기 디스크 드라이브(930) 및 광 디스크 드라이브(934) 각각은 하나 이상의 인터페이스(926)에 의해 버스(906)에 접속된다.

드라이브 및 연관된 컴퓨터 판독 가능 기록 매체는 컴퓨터(900)를 위한 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 및 다른 데이터의 비휘발성 저장을 제공한다. 이하에서 기술된 예시적인 환경이 하드 디스크(928), 분리식 자기 디스크(932) 및 분리식 광 디스크(936)를 사용하고 있지만, 당업자는 자기 카세트, 플래시 메모리 카드, 디지털 비디오 디스크, RAM, ROM 등과 같이, 컴퓨터에 의해 액세스 가능한, 데이터를 저장할 수 있는 다른 유형의 컴퓨터 판독 가능 기록 매체도 또한 예시적인 운영 환경에서 사용될 수 있음을 인식해야 한다.

제한이 아닌 예시로서, 운영 시스템(914), 하나 이상의 애플리케이션 프로그램(916)(예컨대, 멀티미디어 애플리케이션 프로그램(914)), 다른 프로그램 모듈들(918) 및 프로그램 데이터(920)를 포함하는 다수의 프로그램 모듈들이 하드디스크(928), 자기 디스크(932), 광 디스크(936), ROM(908) 또는 RAM(910)에 저장될 수 있다. 사용자는 키보드(938) 및 ("마우스"와 같은) 위치 지정 장치(940)와 같은 입력 장치를 통하여 컴퓨터(900)에게 명령 및 정보를 제공할 수 있다. 다른 입력 장치로는 오디오/비디오 입력 장치(들)(953), 마이크로폰, 조이스틱, 게임 패드,위성 접시(satellite dish), 직렬 포트, 스캐너 등(도시되지 않음)이 포함된다. 이들 입력 장치 및 다른 입력 장치는 버스(906)에 결합된 입력 인터페이스(input interface;942)(들)를 통해 프로세싱 유닛(들)(902)에 접속되지만, 다른 인터페이스 및 병렬 포트, 게임 포트 또는 USB(Universal Serial Bus)와 같은 버스 구조에 의해 접속될 수 있다.

또한, 모니터(956) 또는 다른 유형의 디스플레이 장치는 비디오 어댑터 또는 비디오/그래픽 카드(944)와 같은 인터페이스를 통해 버스(906)에 접속된다. 모니터에 부가하여, 개인용 컴퓨터는 전형적으로 스피커 및 프린터와 같은 다른 주변 출력 장치(도시되지 않음)를 포함하는데, 이는 출력 주변 인터페이스(output peripheral interface; 946)를 통해 접속될 수 있다.

컴퓨터(900)는 원격 컴퓨터(950)와 같은 하나 이상의 원격 컴퓨터로의 논리 접속을 사용하여 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(950)는 본 명세서에서 컴퓨터에 대해 기술된 많은 또는 모든 요소 및 특징을 포함할 수 있다.

도 9에서 도시된 바오 같이, 컴퓨팅 시스템(900)은 LAN(951) 또는 일반적인 WAN(952)를 통해 원격 장치들(예컨대, 원격 컴퓨터(950))에 통신 가능하도록 연결된다. 그러한 네트워킹 환경은 사무실, 기업 규모 컴퓨터 네트워크(enterprise-wide computer networks), 인트라넷 및 인터넷에서 흔한 경우이다.

LAN 네트워킹 환경에서 사용되는 경우, 컴퓨터(900)는 적합한 네트워크 인터페이스를 통해 LAN(951)에 접속된다. WAN 네트워킹 환경에서 사용되는 경우, 컴퓨터(900)는 전형적으로 WAN(952)에 대한 통신을 설정하기 위한 모뎀(954) 또는 다른수단을 포함한다. 내장형 또는 외장형인 모뎀(954)은 사용자 입력 인터페이스(942) 또는 다른 적절한 메커니즘을 통해 시스템 버스(906)에 접속될 수 있다.

네트워크 환경에서, 개인용 컴퓨터(900)에 대하여 기술된 프로그램 모듈 또는 그 일부는 원격 메모리 저장 장치(remote memory storage device)에 저장될 수 있다. 제한이 아닌 예로서, 도 9는 원격 애플리케이션 프로그램들(916)이 원격 컴퓨터(950)의 메모리 장치 상에 존재하는 것으로 도시하고 있다. 도시 및 기술된 네트워크 접속은 예시적이고, 컴퓨터들 간의 통신 링크를 설정하기 위하여 다른 수단이 사용될 수 있음을 인식할 것이다.

결론(Conclusion)

상술한 다양한 실시예들은 인코딩된 영상들의 시퀀스의 영상들 사이에 복잡한 의존성을 허용하는 비디오 부호화 방법과 관련하여 디코딩을 용이하게 하는 접근법을 제공한다. 일부 실시예에서, 이처럼 복잡한 영상 의존성을 이용하는 영상 시퀀스들을 랜덤하게 액세스하는 것과 관련하여 특별한 이점이 달성될 수 있다.

발명이 구조적인 특징 및/또는 방법론적인 단계에 특정한 언어로 기술되었지만, 첨부된 청구항에 정의된 발명은 기술된 특정한 특징 또는 단계에 반드시 제한되는 것이 아님을 이해해야 한다. 오히려, 특정한 특징들 및 단계들은 청구된 발명을 구현하는 바람직한 형태로서 개시된 것이다.

Claims

영상 시퀀스(picture sequence)의 복수의 영상들을 인코딩하는 단계; 및

상기 인코딩과 관련하여, 상기 영상 시퀀스 내의 일정한 위치에서 시작하는 디코딩 동작들이 디스플레이 또는 다른 사용을 위해 적절히 디코딩된 영상들을 생성하게 될 시점을 확인하기 위하여 디코더에 의해 사용될 수 있는 척도를 제공하는 데이터를 상기 복수의 영상들과 연관시키는 단계

를 포함하는 방법.
제1항에 있어서, 상기 복수의 영상들은 I-, P- 및 B-영상들을 포함하는 방법.
제1항에 있어서, 상기 척도는 영상 카운트(picture count)를 통해 정의되는 방법.
제1항에 있어서, 상기 척도는 시간을 통해 정의되는 방법.
제1항에 있어서, 상기 척도는 영상 카운트 및 시간 모두를 통해 정의되는 방법.
제1항에 있어서, 상기 척도는 상기 영상 시퀀스가 적어도 하나의 스플라이싱된(spliced) 부분을 포함하는 것을 나타내는 방법.
제1항의 상기 방법을 구현하도록 구성된 인코더.
제7항의 상기 인코더를 포함하는 컴퓨터 시스템.
컴퓨터 판독 가능 기록 매체에 구체화된 데이터 시퀀스(data sequence)에 있어서,

영상 시퀀스를 포함하는 복수의 인코딩된 영상들; 및

상기 복수의 영상들과 연관되고, 상기 영상 시퀀스 내의 일정한 위치에서 시작하는 디코딩 동작들이 적절히 디코딩된 영상들을 생성하게 될 시점을 확인하기 위하여 디코더에 의해 사용될 수 있는 척도를 제공하는 데이터

를 포함하는 데이터 시퀀스.
제9항에 있어서, 상기 복수의 영상들은 I-, P- 및 B-영상들을 포함하는 데이터 시퀀스.
제9항에 있어서, 상기 척도는 영상 카운트를 통해 정의되는 데이터 시퀀스.
제9항에 있어서, 상기 척도는 시간을 통해 정의되는 데이터 시퀀스.
제9항에 있어서, 상기 척도는 영상 카운트 및 시간 모두를 통해 정의되는 데이터 시퀀스.
제9항에 있어서, 상기 척도는 상기 영상 시퀀스가 적어도 하나의 스플라이싱된 부분을 포함하는 것을 나타내는 데이터 시퀀스.
제14항에 있어서, 상기 영상 시퀀스는 적어도 하나의 스플라이싱된 부분을 포함하는 데이터 시퀀스.
영상 시퀀스의 복수의 영상들을 인코딩하는 단계; 및

상기 인코딩과 관련하여, 랜덤 액세스 정보(random access information)의 하나 이상의 세트 - 상기 랜덤 액세스 정보의 개별적인 상기 세트는 하나 이상의 진입 포인트(entry point) 및 회복 포인트(recovery point)를 포함하고, 개별적인 진입 및 회복 포인트들은 디스플레이 또는 다른 사용을 위해 적절히 디코딩된 영상들을 제공하기 위해 발생해야 할 디코딩의 양에 대한 척도를 제공함 - 를 상기 영상 시퀀스와 연관시키는 단계

를 포함하는 방법.
제16항에 있어서, 적어도 일부의 진입 포인트들은 영상 카운트를 통해 정의되는 방법.
제16항에 있어서, 적어도 일부의 회복 포인트들은 영상 카운트를 통해 정의되는 방법.
제16항에 있어서, 적어도 일부의 진입 포인트들은 시간을 통해 정의되는 방법.
제16항에 있어서, 적어도 일부의 회복 포인트들은 시간을 통해 정의되는 방법.
제16항에 있어서, 랜덤 액세스 정보의 적어도 한 세트는 진입 포인트 및 회복 포인트를 포함하고, 상기 포인트들 중의 하나는 영상 카운트를 통해 정의되며, 상기 포인트들 중의 나머지는 시간을 통해 정의되는 방법.
제16항에 있어서, 상기 복수의 영상들은 I-, P- 및 B-영상들을 포함하는 방법.
제16항에 있어서, 상기 랜덤 액세스 정보는 상기 영상 시퀀스가 적어도 하나의 스플라이싱된 부분을 포함하는 것을 나타내는 방법.
제16항에 있어서, 랜덤 액세스 정보의 적어도 일부 세트는 상기 영상 시퀀스 내의 특정 위치에서의 랜덤 액세스 포인트로서 표시되는 방법.
제24항에 있어서, 적어도 일부의 진입 포인트들은 영상 카운트를 통해 정의되는 방법.
제24항에 있어서, 적어도 일부의 회복 포인트들은 영상 카운트를 통해 정의되는 방법.
제24항에 있어서, 적어도 일부의 진입 포인트들은 시간을 통해 정의되는 방법.
제24항에 있어서, 적어도 일부의 회복 포인트들은 시간을 통해 정의되는 방법.
제24항에 있어서, 적어도 하나의 랜덤 액세스 포인트는 진입 포인트 및 회복 포인트를 포함하고, 상기 포인트들 중의 하나는 영상 카운트를 통해 정의되며, 상기 포인트들의 나머지는 시간을 통해 정의되는 방법.
제24항에 있어서, 상기 복수의 영상들은 I-, P- 및 B-영상들을 포함하는 방법.
제24항에 있어서 상기 랜덤 액세스 정보는 상기 영상 시퀀스가 적어도 하나의 스플라이싱된 부분을 포함하는 것을 나타내는 방법.
제16항의 상기 방법을 구현하도록 구성된 인코더.
제24항의 상기 방법을 구현하도록 구성된 인코더.
제32항의 상기 인코더를 포함하는 컴퓨터 시스템.
제33항의 상기 인코더를 포함하는 컴퓨터 시스템.
컴퓨터 판독 가능 기록 매체에 구체화된 데이터 시퀀스에 있어서,

영상 시퀀스를 포함하는 복수의 인코딩된 영상들; 및

상기 복수의 영상들과 연관된 데이터 - 상기 데이터는 랜덤 액세스 정보의 하나 이상의 세트를 포함하고, 랜덤 액세스 정보의 개별적인 상기 세트는 하나 이상의 진입 포인트 및 회복 포인트를 포함하며, 개별적인 진입 및 회복 포인트들은디스플레이 또는 다른 사용을 위해 적절히 디코딩된 영상들을 제공하기 위해 발생해야 할 디코딩의 양에 대한 척도를 제공함 -

를 포함하는 데이터 시퀀스.
제36항에 있어서, 적어도 일부의 진입 포인트들은 영상 카운트를 통해 정의되는 데이터 시퀀스.
제36항에 있어서, 적어도 일부의 회복 포인트들은 영상 카운트를 통해 정의되는 데이터 시퀀스.
제36항에 있어서, 적어도 일부의 진입 포인트들은 시간을 통해 정의되는 데이터 시퀀스.
제36항에 있어서, 적어도 일부의 회복 포인트들은 시간을 통해 정의되는 데이터 시퀀스.
제36항에 있어서, 랜덤 액세스 정보의 적어도 한 세트는 진입 포인트 및 회복 포인트를 포함하고, 상기 포인트들 중의 하나는 영상 카운트를 통해 정의되며, 상기 포인트들의 나머지는 시간을 통해 정의되는 데이터 시퀀스.
제36항에 있어서, 상기 복수의 영상들은 I-, P- 및 B-영상들을 포함하는 데이터 시퀀스.
제36항에 있어서, 상기 랜덤 액세스 정보는 상기 영상 시퀀스가 적어도 하나의 스플라이싱된 부분을 포함하는 것을 나타내는 데이터 시퀀스.
제36항에 있어서, 랜덤 액세스 정보의 적어도 일부 세트를 상기 영상 시퀀스 내의 특정 위치에서의 랜덤 액세스 포인트로서 표시되는 데이터 시퀀스.
제44항에 있어서, 적어도 일부의 진입 포인트들은 영상 카운트를 통해 정의되는 데이터 시퀀스.
제44항에 있어서, 적어도 일부의 회복 포인트들은 영상 카운트를 통해 정의되는 데이터 시퀀스.
제44항에 있어서, 적어도 일부의 진입 포인트들은 시간을 통해 정의되는 데이터 시퀀스.
제44항에 있어서, 적어도 일부의 회복 포인트들은 시간을 통해 정의되는 데이터 시퀀스.
제44항에 있어서, 랜덤 액세스 정보의 적어도 한 세트는 진입 포인트 및 회복 포인트를 포함하고, 상기 포인트들 중의 하나는 영상 카운트를 통해 정의되며, 상기 포인트들의 나머지는 시간을 통해 정의되는 데이터 시퀀스.
제44항에 있어서, 상기 복수의 영상들은 I-, P- 및 B-영상들을 포함하는 데이터 시퀀스.
제44항에 있어서, 상기 랜덤 액세스 정보는 상기 영상 시퀀스가 적어도 하나의 스플라이싱된 부분을 포함하는 것을 나타내는 데이터 시퀀스.
영상 시퀀스의 복수의 영상들을 인코딩하는단계

- 여기서 개별적인 영상들은 I-, P- 및 B-영상들을 포함하고, 상기 I-, P- 및 B-영상들은,

ㆍ I-영상들은 독립적으로 디코딩 가능하고

ㆍ P-영상들은 하나보다 많은 상이한 영상을 참조할 수 있고,

ㆍ P-영상들은 디스플레이 시에 미래의 영상들을 참조할 수 있고,

ㆍ B-영상들은 둘보다 많은 참조 영상들을 참조할 수 있고,

ㆍ B-영상의 임의의 특정 영역에 대하여, 상기 영역은 하나 이상의 영상들을 참조할 수 있고, 상기 영역이 하나보다 많은 특정 영역을 참조한다면, 상기 영역은상기 영역에 대한 상기 영상들의 일정한 수학적인 조합을 참조할 수 있고,

ㆍ B-영상들은 P-영상 또는 다른 B-영상을 추정하기 위하여 사용될 수 있는 것을 특징으로 하는 인코딩 스키마를 사용하여 인코딩됨 - ; 및

상기 인코딩과 관련하여, 하나 이상의 랜덤 액세스 포인트 - 개별적인 랜덤 액세스 포인트들은 하나 이상의 진입 포인트 및 회복 포인트를 포함하고, 개별적인 진입 및 회복 포인트들은 디스플레이 또는 다른 사용을 위해 적절히 디코딩된 영상들을 제공하기 위해 발생해야 할 디코딩의 양에 대한 척도를 제공함 - 를 상기 영상 시퀀스와 연관시키는 단계

를 포함하는 방법.
제52항에 있어서, 적어도 일부의 진입 포인트들은 영상 카운트를 통해 정의되는 방법.
제52항에 있어서, 적어도 일부의 회복 포인트들은 영상 카운트를 통해 정의되는 방법.
제52항에 있어서, 적어도 일부의 진입 포인트들은 시간을 통해 정의되는 방법.
제52항에 있어서, 적어도 일부의 회복 포인트들은 시간을 통해 정의되는 방법.
제52항에 있어서, 적어도 하나의 랜덤 액세스 포인트는 진입 포인트 및 회복 포인트를 포함하고, 상기 포인트들 중의 하나는 영상 카운트를 통해 정의되며, 상기 포인트들의 나머지는 시간을 통해 정의되는 방법.
제52항에 있어서, 상기 랜덤 액세스 정보는 상기 영상 시퀀스가 적어도 하나의 스플라이싱된 부분을 포함하는 것을 나타내는 방법.
제52항의 상기 방법을 구현하도록 구성된 인코더.
제59항의 상기 인코더를 포함하는 컴퓨터 시스템.
컴퓨터 판독 가능 기록 매체에 구체화된 데이터 시퀀스에 있어서,

영상 시퀀스의 복수의 인코딩된 영상들

- 여기서, 개별적인 영상들이 I-, P- 및 B-영상들을 포함하고, 상기 I-, P- 및 B-영상들은,

ㆍ I-영상들은 독립적으로 디코딩 가능하고

ㆍ P-영상들은 하나보다 많은 상이한 영상을 참조할 수 있고,

ㆍ P-영상들은 디스플레이 시에 미래의 영상들을 참조할 수 있고,

ㆍ B-영상들은 둘보다 많은 참조 영상들을 참조할 수 있고

ㆍ B-영상의 임의의 특정 영역에 대하여, 상기 영역은 하나 이상의 영상들을 참조할 수 있고, 상기 영역이 하나보다 많은 특정 영역을 참조한다면, 상기 영역은 상기 영역에 대한 상기 영상들의 일정한 수학적인 조합을 참조할 수 있고

ㆍ B-영상들은 P-영상 또는 다른 B-영상을 추정하기 위하여 사용될 수 있는 것을 특징으로 하는 인코딩 스키마를 사용하여 인코딩됨 - ; 및

상기 영상 시퀀스와 연관된 하나 이상의 랜덤 액세스 포인트 - 개별 랜덤 액세스 포인트들은 하나 이상의 진입 포인트 및 회복 포인트를 포함하고, 개별 진입 및 회복 포인트들은 디스플레이 또는 다른 사용을 위해 적절히 디코딩된 영상들을 제공하기 위해 발생해야 할 디코딩의 양에 대한 척도를 제공함 -

를 포함하는 데이터 시퀀스.
제61항에 있어서, 적어도 일부의 진입 포인트들은 영상 카운트를 통해 정의되는 데이터 시퀀스.
제61항에 있어서, 적어도 일부의 회복 포인트들은 영상 카운트를 통해 정의되는 데이터 시퀀스.
제61항에 있어서, 적어도 일부의 진입 포인트들은 시간을 통해 정의되는 데이터 시퀀스.
제61항에 있어서, 적어도 일부의 회복 포인트들은 시간을 통해 정의되는 데이터 시퀀스.
제61항에 있어서, 적어도 하나의 랜덤 액세스 포인트는 진입 포인트 및 회복 포인트를 포함하고, 상기 포인트들 중의 하나는 영상 카운트를 통해 정의되며, 상기 포인트들의 나머지는 시간을 통해 정의되는 데이터 시퀀스.
제61항에 있어서, 상기 랜덤 액세스 정보는 상기 영상 시퀀스가 적어도 하나의 스플라이싱된 부분을 포함하는 것을 나타내는 데이터 시퀀스.
복수의 영상들을 포함하는 인코딩된 영상 시퀀스를 수신하는 단계;

상기 영상 시퀀스 내의 일정한 위치에서 시작하는 디코딩 동작들이 적절히 디코딩된 영상들을 생성하게 될 시점을 확인하기 위하여 사용될 수 있는 척도를 제공하는 연관된 데이터를 수신하는 단계; 및

상기 데이터를 사용하여, 상기 영상 시퀀스의 개별적인 영상들을 디코딩하는 단계

를 포함하는 방법.
제68항에 있어서, 상기 복수의 영상들은 I-, P- 및 B-영상들을 포함하는 방법.
제68항에 있어서, 상기 척도는 영상 카운트를 통해 정의되는 방법.
제68항에 있어서, 상기 척도는 시간을 통해 정의되는 방법.
제68항에 있어서, 상기 척도는 영상 카운트 및 시간 모두를 통해 정의되는 방법.
제68항에 있어서, 상기 척도는 상기 영상 시퀀스가 적어도 하나의 스플라이싱된 부분을 포함하는 것을 나타내는 방법.
제68항의 상기 방법을 구현하도록 구성된 디코더.
제74항의 상기 디코더를 포함하는 컴퓨터 시스템.
제68항에 있어서, 상기 연관된 데이터를 수신하는 단계는, 상기 영상 시퀀스 내의 특정 위치에서 랜덤 액세스 포인트로서 표시되는 적어도 랜덤 액세스 정보의 일부 세트를 수신하는 단계를 포함하는 방법.
제76항에 있어서, 랜덤 액세스 정보의 적어도 일부 세트는 영상 카운트를 통해 정의되는 진입 포인트들로서 표시되는 방법.
제76항에 있어서, 랜덤 액세스 정보의 적어도 일부 세트는 영상 카운트를 통해 정의되는 회복 포인트들로서 표시되는 방법.
제76항에 있어서, 랜덤 액세스 정보의 적어도 일부 세트는 시간을 통해 정의되는 진입 포인트들로서 표시되는 방법.
제76항에 있어서, 랜덤 액세스 정보의 적어도 일부 세트는 시간을 통해 정의되는 회복 포인트들로서 표시되는 방법.
제76항에 있어서, 랜덤 액세스 정보의 적어도 일부 세트는 진입 포인트 및 회복 포인트를 포함하고, 상기 포인트들 중의 하나는 영상 카운트를 통해 정의되며, 상기 포인트들의 나머지는 시간을 통해 정의되는 방법.
제76항에 있어서, 상기 복수의 영상들은 I-, P- 및 B-영상들을 포함하는 방법.
제76항에 있어서, 상기 랜덤 액세스 정보는 상기 영상 시퀀스가 적어도 하나의 스플라이싱된 부분을 포함하는 것을 나타내는 방법.
복수의 영상들을 포함하는 인코딩된 영상 시퀀스를 수신하는 단계;

디코딩 프로세스에서 사용될 수 있는 척도를 제공하는 연관된 데이터 - 상기 데이터는 랜덤 액세스 정보의 하나 이상의 세트를 포함하고, 랜덤 액세스 정보의 개별적인 상기 세트는 하나 이상의 진입 포인트 및 회복 포인트를 포함하며, 개별적인 진입 및 회복 포인트들은 디스플레이 또는 다른 사용을 위해 적절히 디코딩된 영상들을 제공하기 위해 발생해야 할 디코딩의 양에 대한 척도를 제공함 -를 수신하는 단계; 및

상기 데이터를 사용하여, 상기 영상 시퀀스의 개별적인 영상들을 디코딩하는 단계

를 포함하는 방법.
제84항에 있어서, 적어도 일부의 진입 포인트들은 영상 카운트를 통해 정의되는 방법.
제84항에 있어서, 적어도 일부의 회복 포인트들은 영상 카운트를 통해 정의되는 방법.
제84항에 있어서, 적어도 일부의 진입 포인트들은 시간을 통해 정의되는 방법.
제84항에 있어서, 적어도 일부의 회복 포인트들은 시간을 통해 정의되는 방법.
제84항에 있어서, 적어도 하나의 랜덤 액세스 포인트는 진입 포인트 및 회복 포인트를 포함하고, 상기 포인트들 중의 하나는 영상 카운트를 통해 정의되며, 상기 포인트들의 나머지는 시간을 통해 정의되는 방법.
제84항에 있어서, 상기 복수의 영상들은 I-, P- 및 B-영상들을 포함하는 방법.
제84항에 있어서, 상기 랜덤 액세스 정보는 상기 영상 시퀀스가 적어도 하나의 스플라이싱된 부분을 포함하는 것을 나타내는 방법.
제84항에 있어서, 적어도 일부 세트의 랜덤 액세스 정보를 상기 영상 시퀀스 내의 특정 위치에서의 랜덤 액세스 포인트로서 표시하는 방법.
제92항에 있어서, 적어도 일부의 진입 포인트들은 영상 카운트를 통해 정의되는 방법.
제92항에 있어서, 적어도 일부의 회복 포인트들은 영상 카운트를 통해 정의되는 방법.
제92항에 있어서, 적어도 일부의 진입 포인트들은 시간을 통해 정의되는 방법.
제92항에 있어서, 적어도 일부의 회복 포인트들은 시간을 통해 정의되는 방법.
제92항에 있어서, 랜덤 액세스 정보의 적어도 한 세트는 진입 포인트 및 회복 포인트를 포함하고, 상기 포인트들 중의 하나는 영상 카운트를 통해 정의되며, 상기 포인트들의 나머지는 시간을 통해 정의되는 방법.
제92항에 있어서, 상기 복수의 영상들은 I-, P- 및 B-영상들을 포함하는 방법.
제92항에 있어서, 상기 랜덤 액세스 정보는 상기 영상 시퀀스가 적어도 하나의 스플라이싱된 부분을 포함하는 것을 나타내는 방법.
제84항의 상기 방법을 구현하도록 구성된 디코더.
제92항의 상기 방법을 구현하도록 구성된 디코더.
제100항의 상기 디코더를 포함하는 컴퓨터 시스템.
제101항의 상기 디코더를 포함하는 컴퓨터 시스템.
복수의 영상들을 포함하는 인코딩된 영상 시퀀스를 수신하는 단계

- 여기서, 개별적인 영상들은 I-, P- 및 B-영상들을 포함하고, 상기 I-, P- 및 B-영상들은,

ㆍ I-영상들은 독립적으로 디코딩 가능하고,

ㆍ P-영상들은 하나보다 많은 상이한 영상을 참조할 수 있고,

ㆍ P-영상들은 디스플레이 시에 미래의 영상들을 참조할 수 있고,

ㆍ B-영상들은 둘보다 많은 참조 영상들을 참조할 수 있고,

ㆍ B-영상의 임의의 특정 영역에 대하여, 상기 영역은 하나 이상의 영상들을 참조할 수 있고, 상기 영역이 하나보다 많은 특정 영역을 참조한다면, 상기 영역은 상기 영역에 대한 상기 영상들의 일정한 수학적인 조합을 참조할 수 있고,

ㆍ B-영상들은 P-영상 또는 다른 B-영상을 추정하기 위하여 사용될 수 있는 것을 특징으로 하는 인코딩 스키마를 사용하여 인코딩됨 ;

디코딩 프로세스에서 사용될 수 있는 척도를 제공하는 연관된 데이터 - 상기 데이터는 랜덤 액세스 정보의 하나 이상의 세트를 포함하고, 랜덤 액세스 정보의 개별적인 상기 세트는 하나 이상의 진입 포인트 및 회복 포인트를 포함하며, 개별적인 진입 및 회복 포인트들은 디스플레이 또는 다른 사용을 위해 적절히 디코딩된 영상들을 제공하기 위해 발생해야 할 디코딩의 양에 대한 척도를 제공함 -를 수신하는 단계; 및

상기 데이터를 사용하여, 상기 영상 시퀀스의 개별 영상들을 디코딩하는 단계

를 포함하는 방법.
제104항에 있어서, 적어도 일부의 진입 포인트들은 영상 카운트를 통해 정의되는 방법.
제104항에 있어서, 적어도 일부의 회복 포인트들은 영상 카운트를 통해 정의되는 방법.
제104항에 있어서, 적어도 일부의 진입 포인트들은 시간을 통해 정의되는 방법.
제104항에 있어서, 적어도 일부의 회복 포인트들은 시간을 통해 정의되는 방법.
제104항에 있어서, 랜덤 액세스 정보의 적어도 한 세트는 진입 포인트 및 회복 포인트를 포함하고, 상기 포인트들 중의 하나는 영상 카운트를 통해 정의되며, 상기 포인트들의 나머지는 시간을 통해 정의되는 방법.
제104항에 있어서, 상기 랜덤 액세스 정보는 상기 영상 시퀀스가 적어도 하나의 스플라이싱된 부분을 포함하는 것을 나타내는 방법.
제104항의 상기 방법을 구현하도록 구성된 디코더.
제111항의 상기 디코더를 포함하는 컴퓨터 시스템.
복수의 영상들을 포함하는 인코딩된 영상 시퀀스를 수신하는 단계;

디코딩 프로세스에서 사용될 수 있는 척도를 제공하는 연관된 데이터 - 상기 데이터는 랜덤 액세스 정보의 하나 이상의 세트를 포함하고, 개별적인 상기 세트는 하나 이상의 진입 포인트 및 회복 포인트를 포함하며, 개별적인 진입 및 회복 포인트들은 디스플레이 또는 다른 사용을 위해 적절히 디코딩된 영상들을 제공하기 위해 발생해야 할 디코딩의 양에 대한 척도를 제공함 - 를 수신하는 단계; 및

상기 데이터를 사용하고, 최선 노력 디코딩 프로세스(best efforts decodingprocess) - 상기 최선 노력 디코딩 프로세스는, 디코딩 프로세스가 참조되는 영상으로의 액세스를 가지는지와 무관하게 모든 상기 영상들을 디코딩하려고 시도하고, 디코딩 프로세스가 참조되는 영상 또는 그 영역으로의 액세스를 갖지 않는 경우에, 참조되는 액세스 불가능한 영상 또는 영역을 초기화함으로써 디코딩될 영역 또는 소정의 혹은 미지정된 값으로 디코딩될 현재 영상 또는 영역을 생성하는 것으로 특징지워짐 - 를 사용하여 상기 영상 시퀀스의 개별 영상들을 디코딩하는 단계
제113항에 있어서, 적어도 일부의 진입 포인트들은 영상 카운트를 통해 정의되는 방법.
제113항에 있어서, 적어도 일부의 회복 포인트들은 영상 카운트를 통해 정의되는 방법.
제113항에 있어서, 적어도 일부의 진입 포인트들은 시간을 통해 정의되는 방법.
제113항에 있어서, 적어도 일부의 회복 포인트들은 시간을 통해 정의되는 방법.
제113항에 있어서, 랜덤 액세스 정보의 적어도 한 세트는 진입 포인트 및 회복 포인트를 포함하고, 상기 포인트들 중의 하나는 영상 카운트를 통해 정의되며, 상기 포인트들의 나머지는 시간을 통해 정의되는 방법.
제113항에 있어서, 상기 복수의 영상들은 I-, P- 및 B-영상들을 포함하는 방법.
제113항에 있어서, 상기 복수의 영상들은 I-, P- 및 B-영상들을 포함하고, 상기 영상들은

ㆍ I-영상들은 독립적으로 디코딩 가능하고,

ㆍ P-영상들은 하나보다 많은 상이한 영상을 참조할 수 있고,

ㆍ P-영상들은 디스플레이 시에 미래의 영상들을 참조할 수 있고,

ㆍ B-영상들은 둘보다 많은 참조 영상들을 참조할 수 있고,

ㆍ B-영상의 임의의 특정 영역에 대하여, 상기 영역은 하나 이상의 영상들을 참조할 수 있고, 상기 영역이 하나보다 많은 특정 영역을 참조한다면, 상기 영역은 상기 영역에 대한 상기 영상들의 일정한 수학적인 조합을 참조할 수 있고,

ㆍ B-영상들은 P-영상 또는 다른 B-영상을 추정하기 위하여 사용될 수 있는 것을 특징으로 하는 인코딩 스키마를 사용하여 인코딩되는 방법.
제113항에 있어서, 상기 랜덤 액세스 정보는 상기 영상 시퀀스가 적어도 하나의 스플라이싱된 부분을 포함하는 것을 나타내는 방법.
제113항의 상기 방법을 구현하도록 구성된 디코더.
제122항의 상기 디코더를 포함하는 컴퓨터 시스템.
복수의 영상들을 포함하는 인코딩된 영상 시퀀스를 수신하는 단계;

디코딩 프로세스에서 사용될 수 있는 척도를 제공하는 연관된 데이터 - 상기 데이터는 랜덤 액세스 정보의 하나 이상의 세트를 포함하고, 랜덤 액세스 정보의 개별적인 상기 세트는 하나 이상의 진입 포인트 및 회복 포인트를 포함하며, 개별적인 진입 및 회복 포인트들은 디스플레이 또는 다른 사용을 위해 적절히 디코딩된 영상들을 제공하기 위해 발생해야 할 디코딩의 양에 대한 척도를 제공함 - 를 수신하는 단계; 및

상기 데이터를 사용하고, 보장 디코딩 프로세스(assured decoding process) - 상기 보장 디코딩 프로세스는, 상기 디코딩 프로세스에서의 사용을 위해 이용 불가능한 다른 영상들을 참조하지 않고 디코딩할 수 있는 영상들 또는 영역들만을 상기 디코딩 프로세스가 디코딩하는 것으로 특징지워짐 - 를 사용하여 상기 영상 시퀀스의 개별 영상들을 디코딩하는 단계

를 포함하는 방법.
제124항에 있어서, 적어도 일부의 진입 포인트들은 영상 카운트를 통해 정의되는 방법.
제124항에 있어서, 적어도 일부의 회복 포인트들은 영상 카운트를 통해 정의되는 방법.
제124항에 있어서, 적어도 일부의 진입 포인트들은 시간을 통해 정의되는 방법.
제124항에 있어서, 적어도 일부의 회복 포인트들은 시간을 통해 정의되는 방법.
제124항에 있어서, 랜덤 액세스 정보의 적어도 한 세트는 진입 포인트 및 회복 포인트를 포함하고, 상기 포인트들 중의 하나는 영상 카운트를 통해 정의되며, 상기 포인트들의 나머지는 시간을 통해 정의되는 방법.
제124항에 있어서, 상기 복수의 영상들은 I-, P- 및 B-영상들을 포함하는 방법.
제124항에 있어서, 상기 복수의 영상들은 I-, P- 및 B-영상들을 포함하고, 상기 영상들은

ㆍ I-영상들은 독립적으로 디코딩 가능하고,

ㆍ P-영상들은 하나보다 많은 상이한 영상을 참조할 수 있고,

ㆍ P-영상들은 디스플레이 시에 미래의 영상들을 참조할 수 있고

ㆍ B-영상들은 둘보다 많은 참조 영상들을 참조할 수 있고

ㆍ B-영상의 임의의 특정 영역에 대하여, 상기 영역은 하나 이상의 영상들을 참조할 수 있고, 상기 영역이 하나보다 많은 특정 영역을 참조한다면, 상기 영역은 상기 영역에 대한 상기 영상들의 일정한 수학적인 조합을 참조할 수 있고,

ㆍ B-영상들은 P-영상 또는 다른 B-영상을 추정하기 위하여 사용될 수 있는 것을 특징으로 하는 인코딩 스키마를 사용하여 인코딩되는 방법.
제124항에 있어서, 상기 랜덤 액세스 정보는 상기 영상 시퀀스가 적어도 하나의 스플라이싱된스플라이싱된 포함하는 것을 나타내는 방법.
제124항의 상기 방법을 구현하도록 구성된 디코더.
제133항의 상기 디코더를 포함하는 컴퓨터 시스템.