KR20070102547A

KR20070102547A - 영상 데이터 스트림, 신호, 컴퓨터 프로그램 그리고대응하는 이미지 쿼러티를 위한 적응 모듈의 스케일러블인코딩 그리고 디코딩 장치 그리고 방법

Info

Publication number: KR20070102547A
Application number: KR1020077018529A
Authority: KR
Inventors: 이사벨 아모누; 나탈리 카마스; 스테판 파토
Original assignee: 프랑스 텔레콤
Priority date: 2005-01-12
Filing date: 2005-12-20
Publication date: 2007-10-18
Also published as: CN101120591A; US8315315B2; DE602005019473D1; BRPI0519842B1; JP2008527870A; PL1839442T3; ATE458355T1; CN102065295B; JP5042856B2; BRPI0519842A2; US20090016434A1; EP1839442B1; CN102065295A; WO2006074855A1; ES2341178T3; EP1839442A1; CN101120591B; FR2880743A1; KR101291555B1

Abstract

본 발명은 이미지 혹은 이미지의 비디오 시퀀스의 인코딩과 디코딩에 관한 것으로, 더욱 상세하게는, 본 발명은 이미지 또는 이미지 시퀀스의 인코딩 방법은 이미지의 스케일러블 인코딩과 디코딩을 위한 기술에 관련된다. 본 발명에 의한 n은 정수이고, 각각의 레벨들 n은 이미지들의 미리 결정된 해상도에 대응하는 연속적인 레벨 n의 임베디드된 데이터 레이어들의 계층구조를 가지는 데이터 스트림을 생성하는 단계를 포함하는 이미지 또는 이미지 시퀀스의 인코딩 방법에 있어서,

상기 방법은, 적어도 상기 레벨 n 레이어의 프리딕션에 의해, 레벨 n+1의 상기 레이어들 중 적어도 하나의 인코딩을 위한 단계를 포함하고,

상기 데이터 레이어들의 각각은 미리 결정된 최대 쿼러티의 상기 해상도 레벨 n에서 상기 이미지들의 버젼의 재생을 할 수 있고,

상기 미리 결정된 최대 쿼러티의 상기 해상도 레벨 n 보다 더 높은 쿼러티의 상기 해상도 레벨 n에서 상기 이미지의 버전의 재생을 할 수 있는 데드(dead) 서브-스트림이라 불리는 상기 레벨 n 데이터 레이어들 중 적어도 하나인 적어도 하나의 서브 스트림에 대하여 또한 인코딩을 하는 것을 특징으로 하고,

여기서, 상기 레벨 n의 상기 레이어의 상기 데드 서브-스트림은 n과 다른 레벨의 상기 레이어들의 프리딕션에 의한 인코딩 단계 동안에 사용되지 않는 것을 특징으로 한다.

이미지, 인코딩, 디코딩, 쿼러티(Quality)

Description

영상 데이터 스트림, 신호, 컴퓨터 프로그램 그리고 대응하는 이미지 쿼러티를 위한 적응 모듈의 스케일러블 인코딩 그리고 디코딩 장치 그리고 방법{DEVICE AND METHOD FOR SCALABLY ENCODING AND DECODING AN IMAGE DATA STREAM, A SIGNAL, COMPUTER PROGRAM AND AN ADAPTATION MODULE FOR A CORRESPONDING IMAGE QUALITY}

본 발명은 이미지 혹은 이미지의 비디오 시퀀스의 인코딩과 디코딩에 관한 것이다. 더욱 상세하게는, 본 발명은 이미지의 스케일러블 인코딩과 디코딩을 위한 기술에 관련된다. 즉, 적응 쿼러티와 가변 스페이스/시간 해상도를 가진 이미지의 인코딩과 디코딩에 관한 것이다.

현재, 많은 데이터 전송 시스템들은 많은 다양한 형태의 데이터 접근을 가지는 복수의 고객에게 서비스를 제공한다는 점에서 이질이다. 그러므로, 전세계 인터넷은 예를 들어, 레이디오-텔러폰 뿐만 아니라 PC 형태의 터미널로부터 접근될 수 있다. 더욱 일반적으로, 네트워크 접근을 위한 대역폭, 고객 터미널을 위한 프로세싱 용량들 그리고 그것들의 스크린 크기는 한명의 사용자로부터 다른 사용자에게 많은 변화를 준다. 예를 들어, 한명의 고객은 1246 kbits/s의 ADSL 비트율을 가진 고성능 PC로 인터넷에 임으로 접근할 수 있는 반면에 다른 고객은 낮은 비트율을 가진 모뎀에 연결된 PDA을 사용하여 동시에 동일한 데이터에 접근하고자 한다.

그러므로 이러한 별개의 사용자들은 비트율과 이미지 해상도의 관점에서 변할 수 있는 그들의 요구들에 적응되는 데이터 스트림이 제공될 필요가 있다. 이러한 필요는 아주 다양한 액세스와 프로세싱 용량을 가진 고객들에게 접근할 수 있는 모든 어플리케이션에 더욱 폭넓게 그리고 하지의 어플리케이션에 특히 적용될 수 있다.

- UMTS 형태의 무선 통신 터미널들, PC들 또는 ADSL 액세스를 가진 텔레비젼 터미널에 접근할 수 있는 VOD("Video On Demand)

- 세션 모빌리티(session mobility)(예를 들어 TV 셋 또는 UMTS 형태 모바일에서 시작된 비디오 세션의 PDA에서의 재개, GPRS("General packet radio service")에서 지작된 세센의 PDA에서의 재개)

- 세션 컨티뉴이티(session continuity)(새로운 어플리케이션을 가진 대역폭의 할당 배경에서)

- HDTV(High-definition television), 여기서 단일 비디오 인코딩은 HD(High definition)을 가진 고객들 뿐만 아니라 SD(stnadard definition)을 가진 고객들에게 서비스를 위해 제공되어야 한다.

- 비디오 화상회의(video-confefencing) 여기서 단일 인코딩은 UMTS 액세스와 인터넷 액세스를 가지는 고객들의 요구들을 만족해야만 한다.

- etc.

이러한 다른 요구들을 만족시키기 위해, 스케일러블 이미지-인코딩 알고리즘이 개발되었고, 이것은 성능(quality)을 조절할 수 있고 스케이스-시간 해상도를 변화시킬 수 있다. 이러한 인코드는 각각의 레이어들이 상위 레벨 레이어에 임베디드되는 레이어의 계층적 구조를 가지는 압축된 스트림을 재생한다. 예를 들어, 첫번째 데이터 레이어는 PDA 형태 터미널에 의해 디코드될 수 있는 264kbits/s 스트림을 운반한다. 그리고, 두번째 컴플리멘트리 데이터(complementary data) 레이어는 더욱 성능이 좋은(powerful) PC 형태의 터미널에 의해 첫번째 스트림에 보완적으로 디코드 될 수 있는 256Kbits 이상 해상도를 가진 스트림을 운반한다. 이러한 예에 있어서, 이러한 두개의 임베디드된 레이어들을 전송하기 위해 필요한 비트율은 512kbits/s 이다.

이러한 스케일러블 비디오-인코딩 알고리즘들 중에서 어떤 것은 MPEG21 working 그룹에 있어서 MPEG("Moving Picture Expert Group") 표준에 의해 지금 채택되고 있다.

특히, MPEG21 working 그룹에 의해 최근 선택된 모델은, SVC(Scalable Video Coding") 모델, SVM(Scalable Video Model")이라 불린다. 그리고 AVC("Advanced Video Model") 형태 솔루션들에 기반한 스케일러블 인코더에 기반한다. 이 모델은 N6716 ISO/IEC JTC 1/SC 29/WG 11, 2005년 10월, Spain, Palma de Majorca 에서 "Scalable Video Model 3.0"의 제목으로 상세하게 설명되어 있다. MPEG21 working 그룹은 공간-시간 차원 그리고 쿼러티에 있어서 평균 그레인(average-grained)되는 스케일러블 스트림들의 공급을 위한 표준을 제공하는 것을 목표로 하고 있다.

2.1 The MPEG-21 SVM 인코더

2.1.1 이 인코더의 중요한 특징들

도 1은 피라미드 구조의 인코더의 구조를 나타낸다. 비디오 입력 성분(10)은 이항 서브-샘플링 작동(2에 의한 2D decimation(11), 4에 의한 2 D decimation(12))이 수행된다. 그 다음에 서버-샘플링 스트림들 각각은 MCTF(motion-compensated temporal filtering) 타입 Temporal Decomposition(13)이 이루어진다. 비디오 시퀀스의 낮은 해상도 버젼은 작은 공간 해상도 r0(이 기본 레벨은 AVC compatible이다.)에 대해 최대 디코드될 수 있는 비트율에 대응하여 주어진 비트율 R_r0_max로 인코드된다.(14)

상위 레벨들은 미리 재구성되고 오버-샘플(over-sampled)된 레벨의 섭트랙션(subtraction)에 의해, 그리고 하기의 형태로 레지듀(residue)들을 인코딩하는 것에 의해 인코딩된다.(15, 16)

- 기본 레벨(a base level)

- 비트판들(bit planes)의 멀티 런(multi-run) 인코딩에 의해 획득된 가능한 하나 이상의 상승(enhancement) 레벨들(이하, "fine_grain scalability에 대하여 FGS라 부른다). 프리딕션 레지듀(Prediction residue)는 해상도 ri에 대하여 디코드될 수 있는 최대 비트율에 대응하는 비트율 R_ri_max로 인코드된다.

더욱 구체적으로, MCTF 필터링 블록들(13)은 시간적 웨이블릿 필터링(temporal wavelet filtering)을 수행한다. 그것들은 웨이블릿 필터링 전에 모션(motion)의 관점에서 신호들을 재정열한다. MCTF 필터링 블록들(13)은 모션 인코딩 블록(14, 15, 16)에 전달되는 모션 정보(17)를 전달하고, 또한 프리딕션 모듈(prediction module, 19)에 전달되는 텍스추럴 정보(textural information, 18) 를 전달한다. 프리딕션 모듈(prediction module, 19)로부터 예견된 데이터 출력은 낮은 레벨로부터 인터포레이션(interpolation)(20)의 수행을 위해 이루어진다. 그것들은 또한 신호의 리파인먼트 레벨들(refinement levels)들에서 작동하는 공간 변형(space transformation) 그리고 엔트로픽 인코딩 블록(21)에 전달된다. 멀티플렉싱 모듈(22)은 모든 압축 데이터 스트림에서 생성된 다른 서버 스트림들을 정열한다.

도 2는 다른 스케일러블 해상도들(CIF/QCIF for "Common Interface Fomat/Quarter Common Interface Format", 여기서 CIF는 TV semi-format에 대응하고, QCIF는 TV puater format에 대응된다.)에 대하여 또는 다른 시간적(temporal) 해상도(7.5-30hz, 초당 이미지의 수(number of images per second))에 대하여 나타나는 비트율/왜곡 곡선들(distortion curves)의 형태로 도 1의 스케일러블 인코더의 수단들에 의해 얻어진 결과들을 나타낸다. y축은 PSNR("Peak Signal to Noise Ratio") 그리고 x축은 kbits/s로 표현되는 비트율을 나타낸다. 그러므로, 첫번째 곡선(23)은 7,5 Hz의 시간 해상도(temporal resolution)를 가진 QCIF 공간 해상도(apatial resolution)에 대응된다. 두번째 곡선(24)은 15Hz에서 QCIF 해상도에 대응된다. 세번째 곡선(25)는 15Hz에서 CIF 해상도에 대응된다. 그리고 네번째 곡선(26)은 30Hz에서 CIF 해상도에 대응된다.

2.1.2 인코더에서 정보 레이어들의 재생

도 3은 SVM 인코더에 의해 수행되는 정보의 프리딕션/엑스트랙션(prediction/extraction)의 메크니즘을 나타낸다. 더욱 상세한 프리딕 션(prediction)이 인코딩 때 수행되는 프리딕션의 아래에 주어진다. 이러한 프리딕션은 주어진 레벨 n 공간 해상도를 가진 하나의 레이어를 더 낮은 레벨 공간 해상도를 가진 레이어의 데이터로부터의 프리딕션에 의해 인코딩되는 것에 있다.

더욱 상세하게, 도 3은 QCIF와 CIF 포맷 공간 해상도 레이어들의 2개의 연속된 레이어들을 나타낸다. 각각은 비트율/왜곡 곡선들(bit rate/distortion curves)로 나타나는 곡선a(QCIF Format, 30)와 곡선b(CIF, 31)에 관계된다. 이 분야에 있어서 당업자는 이러한 예를 n>2 공간 레이어들의 더욱 일반적인 경우로 확장하는데 어려움이 없다. 상기에서와 같이, x 축은 kbits/second로 표현되는 비트율을 나타내고 y축은 dB로 표현되는 PSNR을 나타낸다.

각각의 공간 해상도 레이어(spatial resolution layer)는 두 개의 서브-스트림들의 형태로 정보를 인코딩한다. 두 개의 서브-스트림은 BL(for "base layer")로 불리는 기본 서브-스트림(sub-layer) 그리고 점진적 상승 서브-스트림 또는 EL(for "enhancement layer")로 불리는 서브-레이어이다.

QCIF 포맷은 우선 첫째로 시간 주파수들의 값들과 비트율의 모든 범위에서 인코드된다. 기본 레벨(BL)(301)과 FGS1과 관련된 EL(302), FGS2와 관련된 EL(303)의 두 개의 가능한 상승 레벨들(EL)이 존재한다.(FGS-for "fine grain scalable"). 그러므로, 상승 레이어 EL은 FGS1(302)과 FGS2(303) 두 개를 가진다. IRP(Intermediate refinement points)는 FGS1 과 FGS2 사이에서 데이터 패킷을 컷팅에 의해 디코딩될 때 얻어질 수 있다.

QCIF 포맷은 CIF 포맷의 인코딩 중에 프리딕션(prediction)을 위한 참조로 이용되는 최고 비트율 포인트(304)로 인코드된다. 이 점은 일반적으로 시스템의 최적화를 위해 정의될 수 있는 최상의 하나이어야 한다.

CIF 포맷은 프리딕터(predictor)로 QCIF 곡선의 최고 점(304)(이 곡선의 최대 비트율 포인트)을 사용하여 인코드될 수 있다. CIF 정보는 또한 두 개의 서브-스트림들로 인코드된다. 두 개의 서브-스트림은 기본 서브-스트림(BL)과 상승 서브-스트림(EL)으로 이루어지고, 여기서 상승 서브-스트림(EL)은 FGS1과 FGS2의 두 개런(run)으로 이루어진다.

도 3은, 최대 QCIF 비트율 포인트(304)로부터 시작해서 CIF 공간 화상 레벨(spatial resolution level)의 기본 레벨(BL)를 더하여, CIF 관련 포인트(312)에 이른다. 이 포인트는 디코딩에서 얻을 수 있는 최소비트율 포인트(313)은 아니다. 상기 관련 포인트(312)로부터 시작해서, 상승 레벨 EL(314)(FGS1)과 EL(315)(FGS2)는 최대 CIF 비트율(316)까지 더 높은 CIF 비트율 포인트들에 접근할 수 있다.

도 4는 어떤 특정되지 않은 레벨 n-1 그리고 n 공간 레이어들에 대한 인코딩에서 이루어지는 정보 처리 순서를 요약한다. 여기서 n은 정수이다. BL은 공간 해상도 레벨의 기본 쿼러티 서브-레이어를 나타내고 EL은 상승 쿼러티 서브-레이어를 나타낸다. 그러므로, 우선 첫째로, 레벨 n-1 기본 서버-레이어 BL이 인코드된다.(41). 그 다음에 n-1레벨의 상승 서브-레이어 EL은 인코드된다. 그리고 n 레벨 공간 해상도의 비곤 서브-스트림 BL이 인코드되고, 그 다음에 n 레벨의 상승 서브-스트림 EL이 인코딩된다(44). 동일한 과정은 공간 해상도의 더 높은 레벨들에 대하여 연속적으로 수행된다.

2.2 The MPEG-21 SVM extractor

추출기(extractor)(이하 설명에서 쿼러티 적응 모듈(quality adaptation module)로도 불린다.)는 디코더를 위해 인코더에 의해 재생되고, 주어진 공간-시간 해상도 레벨과 주어진 비트율에 대응하는 모든 데이터 스트림의 일부의 추출을 수행하는 도구이다.

2.1.1 스케이블 스트림 추출기의 일반적인 작동

스케이블 인코드의 두 가지 형태가 있다.

- 예견되지 않는(non-predictive) "naturally scalable" 인코더(예를들어, 웨이블릿 변환에 기반), 이것은 디코딩 포인트들 사이에 특정한 관계들을 구체화하지 않고, 서로 임베디드되어 있다.(예를 들어, 이것은 JPEG2000 표준에 의해 제안되는 비디오 인코더들의 경우이다.)

- 예견되는(predictive) SVM 타입 인코더들, 이것들은 임베딩 패스를 만들 필요가 있다. 더욱 상세하게는, 압축 스트림 추출을 실행하기 위해, SVM의 추출기들은 미리 정해진 패스를 따르고, 이러한 패스는 도 5에서 나타난 바와 같이 서로 임베디드된다.

도 5 에 있어서, x출은 Hz로 표현되는 시간적 해상도를 나타내고, y축은 비트율(high H, low L)을 나타내고, z축은 시간적 해상도(QCIF 또는 CIF)를 나타낸다. 인코더에 의해 재생된 모든 데이터 스트림(50)은 규브들(cubs)의 형태로 나타 나는 서브-스트림들의 셋트로 구성된다. 그리고 각각은 주어진 공간-시간 해상도 그리고 주어진 비트율에 대응된다. 그러므로, 7.5Hz에서 QCIF 공간 해상도로부터 가장 높은 비트율을 추출하기 위해 추출기는 다음과 같은 추출 패스를 따라야 한다. CIF 30 H→CIF 50 H→QCIF 15 H→QCIF 7.5 H (예를 들어, CIF 30 H는 높은 비트율 레벨 H 를 가진, 30Hz의 시간적 주파수에 대한 CIF 공간적 해상도에 있어서 스트림을 지정한다.)

유사하게, 7.5Hz에서 QCIF의 가장 낮은 비트율을 추출하기 위해, 추출기는 다음과 같은 패스를 따라야 한다. CIF 30 H→CIF 15 H→CIF 15 L→QCIF 15 L→QCIF 7.5 L.

2.2.2 The MPEG-21 SVM extractor의 작동

The MPEG-21 SVM 추출기는 다음과 같이 작동한다. 미리 주어진 비트율 Rt에서 그리고 공간-시간 해상도 St-Tr을 가지는 비디오 스트림을 디코딩하기 위해, 서브-스트림이 다음과 같이 모든 스트림으로부터 추출된다. 공간 해상도의 모든 레벨들(기본 레벨로부터 목표 공간 해상도 레벨 St)(BLn-1, BLn-2,...)의 기본 쿼러티 레이어들은 공간 해상도 St에 대해 최소 디코드될 수 있는 비트율에 대응하는 Rmin의 cost에 대하여 추출된다. 기본 쿼러티 버스-스트림들의 추출후에, 인증 비트율은 Rt=Rt-Rmin이 된다.

그 후에 추출기는 더 낮은 공간 해상도들의 시간적 서브-밴드를 통해 진행하고, 각 서브-밴드의 다른 상승 레이어들을 추출한다. 그것은 더 낮은 공간 해상도 의 시간적 서브-밴드들에 루프(loop)를형성하고, 그 다음에, 각 시간 서브-밴드의 상승 레이어들에 루프(loop)를 형성한다.

Rf를 시간 서브-밴드로부터 쿼러티 레이어를 추출하기 위해 필요한 비트율이라고 한다. 만약, 인증 비트율 Rt>Rf이면, 고려되는 서브-밴드의 레이어가 추출되고 비트율이 Rt=Rt-Rf된다. 그렇지 않다면, 고려되는 서브-밴드의 레이어는 종결되고 추출은 종료한다.

만일, 더 낮은 공간 해상도들의 시간 서브-밴드들의 모든 레이어들이 추출되어졌다면, 추출기는 공간 해상도 레벨 St의 서브-밴드들을 시험한다. 추출기는 FGS 쿼러티 레이어들에 루프를 만들고, 그 다음에 시간 서브-밴드들에 루프를 만든다. Rfs는 모든 시간 서브-밴드들을 위한 쿼러티 q 레이어를 추출하기 위해 필요한 비트율을 나타낸다. 만일 인증 비트율이 Rt>Rfs이면, 그 후에 모든 서브-밴드들의 쿼러티 q 레이어가 추출되고 비트울은 Rt=Rt-Rfs가 된다. 만일 그렇지 않다면, 모든 서브-밴드들의 쿼러티 q 레이어는 종결하고, 추출이 종료한다.

도 6 은 추출기 또는 쿼러티 적응 모듈에 의한 정보 프로세싱의 순서를 나타낸다. 레벨 n 공간 해상도에서 추출을 위해, 추출기는 무엇보다도 우선, 모든 공간 레벨들(QCIF, CIF, etc.)의 모든 기본 쿼러티 BL 레벨들 레벨 0에서부터 레벨 n까지 과정을 수행한다. 그 다음에 추출기는 더 낮은 공간 레벨들로부터 상승 쿼러티 레이어들의 n까지 과정을 수행한다.

추출 메커니즘은 프리딕션(prediction) 메커니즘과 관련하여 비트율/왜곡 곡선들(30, 31)을 사용하는 상기에서 설명한 도 3에 의해 또한 설명된다. 하기에서, 디코딩에서 비트율의 다른 포인트들을 재생하기 위한 이러한 곡선들에 따른 SVM MPEG-21의 추출기에 의한 패스를 고려한다.

그러므로, QCIF 포맷에서 비트율 포인트를 생성하기 위해, 추출기는 무엇보다도 우선 QCIF 레벨로부터 기본 레이어(301)를 검색한다. QCIF 최소 포인트(305)로부터, 그 다음에 QCIF 최소 포인트(305)보다 더 높은 어떤 비트율 포인트 그리고 최대 비트율 포인트(304)보다 더 낮은 어떤 비트율 포인트를 추출하는 것이 가능하다.(이것은 CIF 포맷보다 공간 해상도 레이어의 프리딕션을 위해 사용될 수 있는 하나이다.)

이것을 위해, FGS1(302)와 FGS2(303)에 의해 구성되는 상승 레이어 또는 서브-스트림은 할당 비트율에 따라 절단된다.

CIF 포맷에서 비트율 포인트를 생성하기 위해, 요구되는 비트율이 관련 포인트(312)의 비트율보다 높거나 혹은 이 관련 포인트보다 낮은 것에 따라 두개의 접근 이 가능하다.

만일, 목표 비트율이 CIF 관련 포인트(312)의 비트율 이하이면, 추출기는 두개의 QCIF와 CIF 공간 레벨들의 기본 레이어들 BL(301)과 BL(311)를 검색하고, 그러므로 최소 CIF 비트율 포인트(313)에 이른다. 남아있는 비트율에 따라, 추출기는 QCIF 공간 해상도 레벨의 상승 레이어들 EL(302)와 EL(303)을 종료한다.

만일, 요구되는 비트율이 CIF 관련 포인트(312)의 비트율보다 높으면, 추출기는 CIF와 QCIF 레벨들의 기본 레이어들 BL(301)과 BL(311), QCIF 레벨의 상승 레이어 EL(302, 303)을 검색하고, 남은 비트율에 따라 CIF 상승 레이어(314, 315)를 절단한다.

MPEG-21 working 그룹의 SVM 모델의 인코딩/디코딩 기술들은 다양한 단점을 가진다. 이 기술들과 관련된 추출 머케니즘은 많은 흠들이 있다.

무엇보다도 우선, 추출기에서 정보 프로세싱의 순서와 관련하여(즉, 공간 레벨들의 모든 기본 레이어들 BL, 그 다음에 공간 기본 레이어로부터 요구되는 공간 레이어들에 이르는 상승 레이어들 EL), 추출은 디코딩될 때 요구되는 비트율 포인트가 무엇이든지 간에 항상 동일 패스를 따른다. 지금 이 패스는 디코딩될 때 각 목표 비트율 포인트에 대하여 항상 최적의 패스는 아니다. 더욱이, 각각의 주어진 공간 해상도 레벨(프리딕션은 공간 해상도의 더 높은 레벨의 인코딩에 대하여 그것으로부터 만들어진다.)에 대하여, 상기 프리딕션(prediction)을 위해 사용된느 비트율 포인트에 대응하는 최대 비트율 포인트가 존재한다. 지금, 이 최대 비트율 포인트는 이 공간 해상도 레벨에 대하 획득되는 항상 최고 높은 포인트는 아니다. 사실, 프리딕션(prediction) 포인트는 높은 공간 레벨의 인코딩 동안에 프리딕션(prediction)의 레즈듀(residue)를최소화하기 위해 선택된지만, 현재 공간 레벨을 위한 매우 높은 쿼러티의 포인트에 대응되지는 않는다. 프리딕션(prediction) 포인트에 의해 주어진 것보다 더 높은 이미지 복구 쿼러티를 제공하는데 이용할 수 있는 포인트들을 가지는 것은, 특히 낮은 공간 해상도를 위해, 종종 기대되고 또한 필요하다.

마지막으로, MPEG-21 SVM의 마지막 하나의 결점은, 추출에 대하여, 공간 해상도 레벨 n에 있어서(예를 들어, CIF 포맷), 이 레벨의 관련 포인트의 비트율보다 낮은 비트율을 가진 포인트들 중에서(예를 들어, 도 3에서 관련 포인트(312), 즉 공간 레벨 0에서 n 의 기본 레이어들 BL 그리고 레벨 0에서 n-1의 모든 refinement 레이어의 디코딩에 의해 획득되는 포인트), 레벨 n의 어떤 refinement 정보도 사용되지 않는다는 것이다.(즉, 예의 CIF 레벨의 상승 레벨들 EL 314와 315로부터 어떤 정보도 사용되지 않는다.)

상기와 같은 문제점을 해결하기 위해, 본원발명은 선행기술의 이러한 단점을 극복하는데 특히 목적이 있다.

더욱 상세하게, 레이어들에 있어서 데이터 스트림의 조직에 의존하는 비디오 이미지 및/또는 비디오 시퀀스들의 스케일러블 인코딩과 디코딩에 대한 기술을 제공하는 것이 본원발명의 목적이다. 그것은 6716 ISO/IEC JTC 1/SC 29/WG 11, 2005년 10월, Spain, Palma de Majorca 에서 "Scalable Video Model 3.0"의 제목에 의한 서류에서 MPEG-21 working 그룹에 의해 제안된 SVM모델의 기술에 대해 개선된 것이다.

특히, 디코딩될 때, 주어진 해상도 레벨 n에서, 선행기술보다 더 높은 쿼러티의 이미지들을 재생하기 위해 사용될 수 있는 종류의 기술을 제공하는 것이다. 더욱 상세하게는, 주어진 해상도 n-1레벨에 대하여 해상도 레벨 n의 프리딕션(prediction)에 의해 인코딩되기 위해 사용되는 것 보다 더 높은 비트율을 획득하는 것이 가능하도록 하는 종류의 기술을 제공하는 것이 본원발명의 목적이다.

본원발명의 또 다른 목적은, 각각의 비트율 포인트에 대하여, 최적의 추출 패스(즉, 비트율/왜곡 센서에서 상기 포인트의 최고 재생을 제공하는 패스)의 해상도를 위해 사용될 수 있는 이러한 종류의 기술을 제공하는 것이다.

또한, 본원발명의 다른 목적은 실행하기 간단하고, 자원(대역폭, 프로세싱 용량 등)의 관점에서 비용이 거의 들지 않는 종류의 기술을 제공하는 것이다.

또한, 본원발명의 다른 목적은 이미지의 높은 쿼러티 재생을 수행하는 동안, 동시에 효율적인 데이터 압축을 할 수 있는 이러한 종류의 기술을 제공하는 것이다.

또한, 본원발명의 다른 목적은 데이트 스트림 접근의 다른 모델러티를 가지는 복수의 사용자들에게 만족할만한 서비스를 제공하기 위해 사용될 수 있고, 다른 프로세싱 용량을 가지는 터미널(단말기)들을 디스플레이할 수 있는 이러한 종류의 기술을 제공하는 것이다.

무엇보다도 우선, 추출기에서 정보 프로세싱의 순서와 관련하여(즉, 공간 레벨들의 모든 기본 레이어들 BL, 그 다음에 공간 기본 레이어로부터 요구되는 공간 레이어들에 이르는 상승 레이어들 EL), 추출은 디코딩될 때 요구되는 비트율 포인트가 무엇이든지 간에 항상 동일 패스를 따른다. 지금 이 패스는 디코딩될 때 각 목표 비트율 포인트에 대하여 항상 최적의 패스는 아니다. 더욱이, 각각의 주어진 공간 해상도 레벨(프리딕션은 공간 해상도의 더 높은 레벨의 인코딩에 대하여 그것으로부터 만들어진다.)에 대하여, 상기 프리딕션(prediction)을 위해 사용된느 비 트율 포인트에 대응하는 최대 비트율 포인트가 존재한다. 지금, 이 최대 비트율 포인트는 이 공간 해상도 레벨에 대하 획득되는 항상 최고 높은 포인트는 아니다. 사실, 프리딕션(prediction) 포인트는 높은 공간 레벨의 인코딩 동안에 프리딕션(prediction)의 레즈듀(residue)를최소화하기 위해 선택된지만, 현재 공간 레벨을 위한 매우 높은 쿼러티의 포인트에 대응되지는 않는다. 프리딕션(prediction) 포인트에 의해 주어진 것보다 더 높은 이미지 복구 쿼러티를 제공하는데 이용할 수 있는 포인트들을 가지는 것은, 특히 낮은 공간 해상도를 위해, 종종 기대되고 또한 필요하다.

더욱 상세하게, 레이어들에 있어서 데이터 스트림의 조직에 의존하는 비디오 이미지 및/또는 비디오 시퀀스들의 스케일러블 인코딩과 디코딩에 대한 기술을 제공하는 것이 본원발명의 목적이다. 그것은 6716 ISO/IEC JTC 1/SC 29/WG 11, 2005 년 10월, Spain, Palma de Majorca 에서 "Scalable Video Model 3.0"의 제목에 의한 서류에서 MPEG-21 working 그룹에 의해 제안된 SVM모델의 기술에 대해 개선된 것이다.

상기와 같은 본원발명의 목적으로 달성하기 위한, 이미지 또는 이미지 시퀀스의 인코딩 방법은, n은 정수이고, 각각의 레벨들 n은 이미지들의 미리 결정된 해상도에 대응하는 연속적인 레벨 n의 임베디드된 데이터 레이어들의 계층구조를 가지는 데이터 스트림을 생성하는 단계를 포함하는 이미지 또는 이미지 시퀀스의 인코딩 방법에 있어서,

그러므로, 본원발명은 스케일러블 이미지 스트림 또는 비디오 스트림들의 인코디에 대하여 전적으로 신규하고 진보한 접근에 의존한다. 사실, 선행기술(MPEG-21 working 그룹의 SVM에 의해 특히 표현되는 것과 같이)에 반하여, 해상도 n-1을 가지는 레벨의 레이어의 모든 데이터는 더 높은 레벨 n 레이어의 프리딕션에 의해 인코딩되기 위해 사용되다. 본원발명은 해상도 레벨 n-1와 관련된 추가 정보의 인코딩을 제안한고, 이것은 레벨 n의 프리딕션에 의한 인코딩을 위해서도 해상도 레벨 n에 있는 이미지의 재생을 위해서도 사용되지 않을 것이다.

다시 말하면, 인코딩된 스트림 각각의 임베디드된 데이터 레이어들과 관련한 비트율/왜곡 곡선들에 기반한 이유로, 본원발명은 프리딕션 포인트 P_pred로 불리고, 해상도 레벨 n의 데이터 레이어를 프리딕트하기 위해 사용되는 이 곡선의 포인트로부터 주어진 해상도 레벨 n-1의 레이어의 비트율/왜곡 곡선들의 최대 비트율 포인트 P_max를 분리하는 것을 제안한다. 그러므로, 레벨 n 레이어의 데드 서브-스트림은 프리딕트 포인트 P_pred의 비트율과 최대 포인트 P_max의 비트율 사이에 위치한 모든 비트율에 미치는 것이 가능하다.

이 데드 서브-스트림을 통해, 선해 기술에서보다 더 높은 쿼러티의 해상도 레벨 n 에서 이미지 또는 비디오 시퀀스의 재생을 이루는 것이 디코딩에 있어서 가능하다. 이것은 특히 포인트 P_pred로부터 레벨 n에서 재생에 의해 이루어지는 쿼러티가 충분하지 않은 어떤 디스플레이 터미널에 대하여 가치가 있다.

더욱 편리하게, 상기 레벨 n 데이터 레이어들은 상기 해상도 레벨 n을 가진 이미지들의 기본 쿼러티 버젼의 재생을 할 수 있는 적어도 하나의 기본 서브-스트림의 형태로, 상기 레벨 n 데이터 레이어들 중 적어도 하나에 대하여, 상기 이미지들의 적어도 하나의 상승된 쿼러티 버젼을 획득하기 위해, 상기 기본 쿼러티 번젼이 리파인(refine)될 수 있는 적어도 하나의 상승 서브-스트림의 형태로 인코드되고, 상기 미리 결정된 최대 쿼러티는

- 만일 상기 상승 서브-스트림이 인코드되지 않으면 상기 기본 쿼러티;

- 만일 적어도 하나의 상승 서브-스트림이 인코드되면, 적어도 하나의 상승된 쿼러티이다.

사실 어떤 데이터 레이어들은 단지 기본 서브-스트림의 형태로 인코드될 수 있고, 다른 것들은 또한 하나 혹은 그 이상의 상승 서브-스트림을 포함할 수 있다. 본원 발명에 따라 인코딩된 데드 서브-스트림은 기본 서브-스트림으로부터 또는 기본 서브-스트림과 상승 서브-스트림 또는 그것들이 존재한다면 서브-스트림으로부터 획득되는 최대 쿼러티보다 높은 쿼러티의 이미지 재생을 할 수 있다.

본원발명의 하나의 이로운 특징에 따라, 이러한 종류의 방법은 또한 상기 데이터 스트림안에서 상기 적어도 하나의 데드 서브-스트림을 확인하기 위해 사용되는 적어도 하나 이상의 정보를 상기 데이터 스트림에 삽입하는 1 단계를 포함한다. 그것은 공간 해상도 레벨 n과 관련된 최대 비트율 포인트와 더 높은 공간 해상도 레벨 n+1의 인코드을 위해 사용되는 프리딕션 포인트를 구별할 수 있기 위해 디코딩될 때 사실 필요하다.

본원발명의 더욱 바람직한 특징에 따라, 이러한 종류의 인코딩 방법은 또한 상기 이미지들 중에서 적어도 어떤 것에 대하여, 상기 레이어들 중 적어도 하나의 적어도 어떤 데이터와 관련되는 재생 쿼러티에 관한 적어도 하나의 정보를 상기 데이터 스트림에 삽입하는 2 단계를 더 포함하고, 상기 재생 쿼러티는 적어도 하나의 비트율/왜곡 파라미터의 기능이 있다.

스트림에 이러한 쿼러티 정보를 삽입하는 것은 레벨 n 해상도의 다른 레이어들에서 쿼러티의 선택적 적응을 할 수 있다. 그러므로, 디코딩에 있어 목표 비트율의 각 포인트에 대하여, 최적의 추출 패스가 정의되고, 이 패스는 비트율/왜곡의 관점에서 이 비트율에서 이 이미지의 최고 재생을 할 수 있는 것이다.

본원발명은 n은 정수이고, 각각의 레벨들 n은 이미지들의 미리 결정된 해상도에 대응하는 연속적인 레벨 n의 임베디드된 데이터 레이어들의 계층구조를 가지는 데이터 스트림을 생성하는 수단들을 포함하는 이미지 또는 이미지 시퀀스의 인코딩 장치에 관한 것이다.

그러한 장치는, 적어도 상기 레벨 n 레이어의 프리딕션에 의해, 레벨 n+1의 상기 레이어들 중 적어도 하나의 인코딩 수단을 포함한다. 그리고, 상기 데이터 레이어들의 각각은 미리 결정된 최대 쿼러티의 상기 해상도 레벨 n에서 상기 이미지들의 버젼의 재생을 할 수 있다.

본원발명에 따라, 그러한 장치는 또한 상기 미리 결정된 최대 쿼러티의 상기 해상도 레벨 n 보다 더 높은 쿼러티의 상기 해상도 레벨 n에서 상기 이미지의 버전의 재생을 할 수 있는 데드(dead) 서브-스트림이라 불리는 상기 레벨 n 데이터 레이어들 중 적어도 하나인 적어도 하나의 서브 스트림에 대하여 또한 인코딩을 하는 수단을 또한 포함한다. 그리고, 상기 레벨 n의 상기 레이어의 상기 데드 서브-스트림은 n과 다른 레벨의 상기 레이어들의 프리딕션에 의한 인코딩 수단들에 사용되지 않는다. 그러므로, 이러한 데드 서브-스트림은 레벨 n 레이어에 대하여, 기본 서브-스트림 BL에 더해지고, 경우에 따라서, 그것이 포함하는 상승 서브-스트림 EL에 더해진다.

또한, 이러한 종류의 인코딩 디바이스는 상기 레벨 n+1 레이어의 프리딕션에 의해 인코딩되는 동안 고려되는 상기 데이터를 상기 레벨 n 레이어로부터 추출할 수 있는 프리딕션 포인트 추출 모듈을 포함한다. 이 프리딕션 포인트 추출모듈은 더 높은 레벨 레이어의 인코딩을 수행하기 위해 사용되는 최대 비트율 포인트로부터 구별되는 포인트를 결정하기 위해 사용된다.

본원발명은 또한 하기에서 설명하는 인코딩 기술에 따라 인코딩된 데이터 스트림의 디코딩을 위한 방법 그리고 관련 장치에 관련한 것이다. 이것은 상기 해상도 레벨 n을 가진 상기 이미지들의 재생을 위해,

- n 보다 낮은 레벨의 상기 데이터 레이어들의 디코딩하는 단계;

- 인증된 디코딩 비트율에 의존하여, 상기 레벨 n 레이어 그리고 경우에 따라서, 상기 레벨 n 레이어의 상기 데드 서브-스트림의 적어도 부분 디코딩하는 단계를 수행한다. 여기서, n 보다 낮은 레벨의 상기 레이어들의 상기 데드 서브-스트림들은 상기 재생 동안 디코딩되지 않는다.

더욱 상세하게는, 무엇보다도 그것은 n보다 낮거나 혹은 n과 동일한 하나의 레벨의 기본 서브-스트림이다. 그리고, 그 다음은 그것들이 존재할 때 n레벨보다 더 낮은 상승 서브-스트림이다. 마지막으로, 인증 코딩 비트율에 따라, 디코딩은 상승 서브-스트림에 또는 레벨 n 레이어의 서브-스트림에 적어도 부분적으로 수행되고, 경우에 따라서, 이 레이어의 데드 서브-레이어에서 부분적으로 수행된다.

본원발명은 또한 상기에서 설명된 기술에 따라 인코딩된 데이터 스트림의 전송을 위한 신호에 관한 것이다. 상기 신호는 상기 데이터 스트림이 전달되는 정보 엔티티의 형태로 구조화되고, 상기 각각의 정보 엔티티는 상기 정보 엔티티의 형태로 정보를 제공하는 헤드 그리고 페이로드 데이터 필드를 포함한다.

본원발명에 따라, 상기 미리 결정된 최대 쿼러티의 상기 해상도 레벨 n 보다 더 높은 쿼러티의 상기 해상도 레벨 n에서 상기 이미지의 버전의 재생을 할 수 있는 데드(dead) 서브-스트림이라 불리는 상기 레벨 n 데이터 레이어들 중 적어도 하나에 대하여 상기 신호가 또한 전송되고, 상기 레벨 n의 데드 서브-스트림은 n과 다른 레벨의 해상도를 가진 상기 이미지들의 재생에 대하여 사용되지 않는다.

첫번째 선택적 실시예에 있어서, 그러한 신호는 상기 베이스 서브-스트림과 상기 상승 서브-스트림들을 전달하는 상기 정보 엔티티의 타입으로부터 구별되는 첫번째 구체적인 타입의 적어도 하나의 정보 엔티티(예를 들어, SVM 모델의 신텍스에 의해 규정된 NAL 형태(22, 23)) 내에서 상기 데드 서브-스트림을 전달한다.

두번째 선택적 실시예에 있어서, 적어도 하나의 상기 데드 서브-스트림 그리고, 적어도 하나의 상기 상승 서브-스트림은 동일한 타입의 정보 엔티티(NAL) 내에서 전달되고, 상기 신호는 상기 단독 서브-스트림과 상기 상승 서브-스트림을, 상기 NAL 내에서, 확인할 수 있는 적어도 하나의 커팅 정보를 전달한다.

최적의 추출 패스를 정의할 수 있는 쿼러티의 적응된 선택과 관련한 상기 설명된 다양한 것들이 인코딩 동안에 수행될 때, 본원발명의 상기 신호는 이러한 다양한 것에 있어서, 어떤 데이터와 관련한 쿼러티의 재생과 관련한 정보를 또한 전달해야만 한다. 이것을 하기 위해, 두 가지 접근 방법이 고려된다.

첫번째 선택된 실시예는, NAL로 알려진, 정보 엔티티의 어떤 것들은 상기 페이로드 데이터 필드의 적어도 어떤 데이터에 적어도 하나의 포인터를 포함하는 pseudo-header를 또한 포함하기 위해 존재하는 정보 엔티티의 구조를 수정하는 것으로 구성된다. 상기 포인터는 상기 데이터와 관련한 재생 쿼러티의 레벨에 관한 정보를 제공하고 적어도 하나의 비트율/왜곡 파라미터에 의존한다.

두번째 변형 실시예(그것이 존재하는 정보 엔티티의 구조의 수정을 요구하지 않기 때문에 더욱 바람직하다.)는 적어도 상기 스트림의 어떤 데이터와 관련한 재생 쿼러티에 관한 적어도 하나의 정보를 포함하는 구체적인 타입의 적어도 하나의 정보 엔티니의 신호 내에서 소개되는 것으로 구성된다. 상기 재생 쿼러티는 적어도 하나의 비트율/왜곡율 파라미터에 의존한다.

그러므로, 정보 NAL로 불리는 구체적인 NAL은 소개되고, 이러한 정보 NAL은 데이터 전송 NAL(예를 들어, 상승 서브-스트림을 전달하는 NAL로 명명된다.)에서 쿼러티 레벨의 확인을 할 수 있는 페이로드 데이터 필드 오프셋로 구성된다.

이러한 정보 NAL은 또한 데드 스브-스트림의 시작에 대응하는 쿼러티 레벨을 나타내는 추가적인 정보를 포함할 때 하나의 데드 서브-스트림을 확인한기 위한 정보를 전송한다.

본원발명은 또한 마이크로 프로세서 내에서 혹은 마이크로 프로세서에 의해 실행될 때, 이미지 혹은 이미지 시퀀스의 인코딩 방법의 단계들을 실행하기 위한 그리고 이미지 혹은 이미지 시퀀스를 나타내는 데이터 스트림의 디코딩 방법의 단계들을 실행하기 위한 프로그램 코드 명령을 포함하는 컴퓨터 프로그램에 관계된다.

본원발명은 또한 상기에서 설명한 바와 같이 이미지 또는 이미지 시퀀스를 나타내는 소스데이터의 스트림을 포함하는 이미지 또는 이미지 시퀀스의 쿼러티를 적응하기 위한 모듈에 관계된다.

이러한 종류의 적응 모듈은 상기 이미지의 디스플레이를 위해 적어도 하나의 터미널에 대해 예정된 수정된 데이터 스트림의 생성을 위한 수단들을 실행하고, 상기 수정된 데이터 스트림은 추출에 의해 상기 소스 데이터 스트림으로 부터 획득되고, 만일 상기 적어도 하나의 디스플레이 터미널이 상기 해상도 레벨 n을 가진 상기 이미지를 재생하지 못하면 상기 레벨 n 데드 서브-스트림으로부터 획득된다.

그러한 적응 모듈(또한 추출기라 불린다.)은 스트림으로부터 제공되는 터미널의 특징 때문에 재생에 사용되지 않는 서브-스트림을 추출하기 위해 사용된다. 그것은 인코드의 출력에 바로 위치할 수 있고, 또한 디코드 바로 전에 위치할 수 있다.(아니면 심지어 디코더와 일체화될 수 있다.)또한 그것은 전송 네트워크의 어떤 지점에 위치할 수 있고, 고객 터미널은 이것을 통해 스트림에 접근할 수 있다.

마지막으로 본원발명은 상기 언급된 데이터 스트림을 저장하기 위해 디자인된 데이터 케리어에 관계된다. 이것은 서브 스트림의 데이터의 임베디드된 레이어들의 계층적 저장을 위한 구조를 가진다. 이러한 종류의 데이터 케리어는 또한, n 레벨 데이터 레이어들 중에서 적어도 하나에 대하여, 적어도 하나의 데드 서브-스트림의 저장을 위한 적어도 하나의 존을 포함하고, 적어도 하나의 데드 서브-스트림은 n과 다른 해상도 레벨을 가진 상기 이미지들의 재생에서 리드되지 않는다.

본원발명의 다른 특징들 그리고 이점들은 바람직한 실시예에 대한 하기하는 설명으로부터 더욱 명확하게 나타난다. 이것은 간단한 실시 예를 통해, 추가된 도면으로부터 나타난다. 각각의 도면은,

도 1 내지 도 6은, 선행기술과 관련하여 설명된 바와 같이, MPEG-21 working 그룹의 SVM 모델과 관련된다. 더욱 상세하게는:

도 1은 상기 언급된 문서 N6716에서 설명된 MPEG-21 SVC 의 블록 다이어그램을 나타낸다.

도 2는 도 1의 인코더로부터 얻어지는 다른 비트율-왜곡 곡선를 나타낸다.

도 3은 도 2와 같은 동일한 형태의 비트률/왜곡 곡선에 기반하여, MPEG-21의 SVM에 의해 제안된 프리딕션/추출을 나타낸다.

도 4는 도 1의 인코더에 의해 데이터 레이어들의 프로세싱 순서를 나타낸다.

도 5는 MPEG 표준에 의해 규정된 임베디드 추출 패스의 원리를 나타내는 도면이다.

도 6은 디코딩을 수행하는 추출에 있어서 데이터 레이어들의 처리 순서를 나타낸다.

도 7은 비트율-왜곡 곡선의 형태로 해상도 레벨 n에서 데드-스트림의 삽입 원리를 나타낸다.

도 8은 본 발명에 의한 인코더의 블록 다이어그램이다.

도 9는 데드 서브-스트림의 삽입과 관련하여 도 8의 인코더에 의해 수행되는 데이터의 조직을 나타낸다.

도 10 및 도 11은 CIF 와 QCIF로부터 추출에 대한 두가지 실시에를 나타낸다.

도 12 내지 16은 본원발명의 특별한 실시예를 나타낸다. 여기서는, 데드 서브-스트림에 추가하여, 이미지들이 재생하는 동안에 사용되는 연속적인 쿼러티 레벨들로 세부화되어 나누어진다.

도 12는 변형으로 도 3의 프리딕션/추출 메커니즘이 수정되는 것을 나타낸다.

도 13은 이미와 관련하여 서브-스트림에서 전단(truncation) 포인트의 설정하는 원리를 나타낸다.

도 14 및 15는 이러한 변형에 따라 스트림에 삽입되는 쿼러티 정보를 전달하는 정보 쿼러티, 또는 NALs의 구조에 관한 두 가지 예를 나타낸다.

도 16은 연속된 쿼러티 레벨에서 이미지의 구조에 관해 나타낸다.

도 17 내지 도 19는 각각 본원발명에 의한 인코딩 장치, 이미지 쿼러티 적응 모듈 그리고 디코딩 장치의 단순화한 다이어그램을 나타낸다.

본원발명의 일반적인 원리는 어떤 또는 모든 해상도 레벨에서 더 좋은 쿼러티 이미지의 재생을 하기 위해 디자인된 스트림의 어떤 또는 모든 해상도 레벨에서 추가적인 서브-스트림의 인코딩에 의존한다. 데드 서브-스트림으로 불리는, 이러한 추가적인 서브-스트림은 그것이 인코딩되는 해상도 레벨에서 단지 사용된다. 다시 말하면, 인코딩에 있어서, 그것은 다른 해상도 레벨들의 레이어의 프리딕션을 위해 사용되지 않고, 디코딩에 있어서, 다른 해상도 레벨들에 있는 이미지의 재생을 위해 사용되지 않는다.

스트리에 인코딩된 각각의 해상도 레벨와 관련한 비트율-왜곡 곡선을 고려함에 있어서, 이와 같은 데드 서브-스트림의 삽입은 해상도 레벨의 최대 비트율 포인트를 더 높은 해상도 레벨의 프리딕션을 위해 사용되는 이러한 레벨의 포인트와 결과적으로 분리하게 된다.

도 7과 관련하여, 주어진 레벨 n의 공간 및/또는 시간 해상도 데이터의 레이어에 데드 서브-스트림을 추가하는 것에 기반한 본원발명의 인코딩 기술에 관한 실시예를 나타낸다.

상기에서와 같이(도 3 참조), 도면은 QCIF 및 CIF 포맷으로 지칭되는 두 개의 임베디드된 해상도 포맷을 가진 이미지의 인코딩의 특별한 경우를 포함한다. 당업자는 이러한 기술을 n 연속 해상도 레벨(예를 들어, QCIF, CIF, SD, HD 등)의 더 많은 일반적인 경우에 쉽게 확장할 수 있다. 도 7은 kbits/s로 표현된 비트율을 나타낸 x축과 PSNR의 형태로 dB로 표현된 왜곡을 나타내는 y축을 가진 이러한 두 가지 포맷(QCIF에 대하여 곡선(30)과 CIF에 대한 곡선(31))에 대한 비트율-왜곡 고선 을 나타낸다. 도 3과 도 7에 있어서, 동일한 구성요소는 동일한 도면부호로 지정된다.

그러므로, 본원발명의 원리는, 인코딩에 있어서,공간 레벨 n의 프리딕션에 사용되는 포인트(즉, CIF 포맷의 프리딕션에 사용되는 포인트 P_pred(706))와 다른 공간 레벨 n-1에 대한 최대 비트율 포인트(이 경우에 있어서, QCIF 포맷의 비트율/왜곡 곡선에 대한 포인트 P_max)를 정의하는 것으로 구성된다.

이것을 위해, 하기하는 인코딩 단계들이 수행된다.

- 최대 비트율 포인트 P_max(704)까지 공간 레벨 n-1(QCIF)의 데이터 레벨의 인코딩;

- 레벨 n-1(QCIF)의 비트율 포인트 P_pred(706)의 추출

- P_pred(706)에서 P_max(704)에 이르는 비트율에 미치는 공간 레벨 n-1(QCIF)에 대한 데드 서브-스트림(707)라 불리는 추가적인 서브-스트림을 전체적으로 인코드되는 스트림에 소개. 이 스트림은 해상도 레벨 n-1(QCIF)에서 일정한 비트율 프린트에서 비디오 시퀀스의 재생을 위해 단지 제공되고 더 높거나 더 낮은 공간 레벨 포인트들의 재생을 위해 사용되지는 않는다.

- 스트림으로부터 데이터의 디코딩 또는 추출이 이루어지는 동안에, 최대 비트율 포인트 P_max(704)에 관련된 QCIF 비트율/왜곡 곡선에서 프리딕션 P_pred(706)의 위치를 확인하는 것을 가능하도록 하는 데드 서브-스트림을 확인하는 어떤 정보를 전체적인 스트림에 소개.

- 비트율 포인트 P_pred(706)에서 공간 레벨 n-1(QCIF)의 프리딕션을 사용하는 것에 공간 레벨 n(CIF)의 데이터 레이어의 인코딩.

그러므로 이러한 인코딩 기술은 QCIF 포맷에서 이미지 재생을 위해 배타적으로 사용되는 데드 서브-스트림(707)에 속하는 공간 해상도 QCIF와 관련되는 비트율/왜곡 곡선(30)에서 새로운 포인트들이 나타나는 것에 이른다.

터미널이 인코드된 전체 데이터 스트림의 디코드를 원할 때, 비디오 시퀀스의 재생을 위해 필요한 정보는 이러한 스트림으로부터 추출된다. 이것은 공간-시간 해상도 및 터미널에 의해 기대되는 비트율에 의존한다. 해상도 레벨 n에서 재생에 있어서, 이러한 공간 레벨 n의 비트율 포인트는 n과 다른 공간 레벨(특히 더 낮은 공간 레벨들)들의 데드 서브-스트림 중에 어떤 것을 사용하지 않기 위해 처리하는 경우에 추출된다. 하지만, 만일 필요해서 사용되는 경우에, 만약 기대되는 비트율이라면 공간 레벨 n의 데드 서브-스트림은 이러한 사용을 가능하게 한다.

도 17은 본원발명의 인코딩 장치의 간단한 구조를 나타낸다. 이 인코딩 장치는 메모리 M(178), 예를 들어 하나의 마이크로 프로세서로 설치되고 컴퓨터 프로그램 Pg(177)dp 의해 작동되는 프로세싱 유닛(176)을 포함한다. 처음에, 예를 들어, 컴퓨터 프로그램(177) 코드 명령은 프로세싱 유닛(176)의 프로세서에 의해 실행되기 전에 RAM 내부에 로딩된다. 프로세싱 유닛(176)은 인코드되기 위해 입력 비디오 컨텐트(10)을 수신한다. 프로세싱 유닛(176)DML 마이크로프로세서 mP는 n 연속적인 공간 해상도 레벨들 Pg(177)의 임베디 된 복수의 레이어들을 포함하는 압축된 스트림(83)의 형태로 비디오 시퀀스(10)를 인코드한다.

도 8은 어떤 또는 모든 공간 해상도 레벨에서 데드 서브-스트림의 삽입할 수 있는 인코더의 구조를 더욱 상세하게 나타낸다. 그러한 인코더의 구조는 프리딕션 포인트 추출 모듈(81, 82)이 존재하는 것으로 인해, 도 1과 관련하여 상기에서 언급한 MPEG021 SVC의 그것과는 다르다. 도 1과 도8에 있어서 동일한 구성요소는 동일한 도면부호로 나타낸다. 도 8의 예는 움직임 보상을 가진 시간적 웨이브릿 변형 그리고 내부-레이어 구조를 가진 레이어들에 의한 구조에 기반한 스케일러블 비디오 인코딩의 과점에서 설명된다.

도 8의 인코더는 다음과 같이 작동한다.

(a) 인코더 입력에서 수신된 비디오 데이터(10)은 병렬로 작동하는 인코드의 세 개의 암(arm)으로 전달된다. 하나의 암(arm)에서는 데이터가 4로 데시메이션이 수행된다(12). 하나의 암에서는 데이터가 2로 데시메이션이 수행된다(11). 그리고, 마지막 암에 있어서는 데이터가 서브-샘플되지 않고 어떤 데시메이션이 이루어지지도 않는다.

(b) 비디오 시퀀스는 무엇보다도 웨이블릿 계수(wavelet coefficients)의 형태로 조직구성의(textural) 정보를 생성하기 위해 사용되는, 움직임 보상 시간 변환(MCTF, Motion-Compensated Temporal Tramsform)(13₁)의 수단에 의해 기본 공간 포맷(QCIF)에서 인코드된다.(간단하게 표현하기 위해, 비디오 시퀀스의 움직임 정보를 프로세싱을 위한 모듈은 여기서 표현되지 않는다.) 변환 계수들은(transformed coefficients)는 동일한 공간 레벨의 다른 계수들 그리고 스케일러블 엔트로픽(entropic) 인코딩(21₁)과 관련된 프리딕션(19₁)에 의해 인코드된다. 하 나의 스케일러블 서브-스트림은 기본 공간 해상도 레벨(서브-스트림(84))을 나타내면서 얻어진다. 기본 공간 해상도 레벨은 전체 비트율 R_r0_max를 가지고, 여기서 r0는 공간 레벨을 나타내고 max는 관련 비트율-왜곡 곡선의 가장 높은 비트율 포인트를 나타낸다.

더 높은 공간 인코딩 레벨을 위한 프리딕션을 위해 사용되는 비트율 포인트 P_prde는 프리딕션 포인트 추출 모듈(82)에 의해 인코드된 스케일러블 서브-스트림으로부터 추출된다. 포인트 P_pred의 비트율은 비트율 R_r0_max보다 더 낮다.

추출된 서브-스트림은 더 높은 공간 해상도 레벨에 대한 프리딕션(19₂)에 대하여 사용되기 위해 디코드되고 삽입된다(20₁). 스케일러블 서브-스티림(84)은 최종 스트림(83)을 형성하기 위해 모든 공간 해상도 레벨들의 모든 서브-스트림을 조직하는 역할을 담당하는 멀티플렉서(Multiplexer, 22)에 전달된다.

(c) 그 다음에 비디오는 움직임 보상 시간 변환(MCTF, 13₂)의 수단에 의해 더 높은 공간 해상도(CIF)에서 인코드된다. 전송 계수(tramsformed coefficients)는 동일한 공간 레벨(CIF)의 웨이블릿 계수의 수단에 의해, 혹은 더 낮은 공간 레벨로부터 전달되는 삽입된 신호(20₁)의 계수의 수단에 의해, 프리딕트된다(19₂). 상기 프리딕션(19₂)은 스케일러블 엔트로픽 인코딩(21₂)이 뒤에 따른다. 그리고 공간 해상도 레벨 r1을 나타내는 스케일러블 서브-스트림(85)은 최대 비트율 R_r1_max로 얻어진다. 이 서브-스트림(85)은 멀티플렉서(22)에 전달된다. 더 높은 공간 메벨의 프리딕션을 위해 사용된 비트율 포인트는 그 다음에 프리딕션 포인트 추출모듈(81)에 의해 인코드된 서브-스트림(85)로부터 추출되고, 삽입된다(20₂).

동일한 과정은 더 높은 공간 레벨들에 의해 수행된다. 다만, 어떤 프리딕션 포인트도 마지막 공간 레벨에 대하여 추출되지 않는 것은 제외한다.

도 9는 도 8의 인코더에 의해 생성된 데이터를 나타낸다. 이는 QCIF와 CIF로 지칭되는 단지 두 개의 다른 공간 해상도 레벨이 고려되는 특별한 예에 해당한다.(다시 말하면, 고려되는 단지 하나의 구성요소는 도 8의 인코더의 두 개의 낮은 암으로부터 전달되는 서브-스트림이다. 두 개의 낮은 암은 입력 비디오 데이터(10)를 2 또는 4에 의해 데시메이션에의해 각각 선행된다.)

공간 해상도 레벨(QCIF, CIF)의 각 데이터 레이어에 있어서, 데이터는 몇 개의 서브-레이어에서 조직화된다. 하나의 기본 레이어 BL은 첫 번째 상승 레이어(상승(Enhancement Layer 1, or EL 1)와 두 번째 상승 서브-레이어(Enhancement Layer 2, or EL 2)가 뒤를 따른다. 첫번째 두 개의 서브-레이어(BL and 디)는 더 높은 공간 레벨의 프리딕션을 위해 인코딩 단계에서 사용되고 디코딩 단계에서, 현재 공간 레벨과 더 높은 공간 레벨의 포인트들의 재생을 위해 사용된다.

두 번째 상승 서브-레이어(EL 2)는 단지 현재 공간 레벨의 포인트들의 재생을 위해 단지 사용된다. 이 두 번째 상승 서브-레이어는 데드 서브-스트림을 나타낸다.

도 9는 본원발명에 의해 제안된 추가적인 서브-스트림 EL 2 에 추가하여, 각 데이터 레이어는 적어도 하나의 상승 서브-레이어 EL 1을 포함하는 구체적인 실시 예를 나타낸다. 물론, 어떤 공간 레벨들의 어떤 데이터 레이어들은 기본 서브-스트림 BL의 형태로 단지 인코드되는 것 또한 가능하다. 본원발명은 하나의 상승 서브-스트림 EL에 데드 서브-스트림을 추가한다.

주어진 공간 해상도 레벨 n의 데이터 레이어에서 인코더에 의해 데드 서브-스트림이 추가될 때, 이것은 디코드될 때, 데드 서브-스트림이 탐색될 수 있기 위해 모든 데이터 스트림에서 구체적인 정보의 삽입에 의해 리포트되는 것이 필요하다.

하기에서, 우리는 모든 데이터 스트림에서 데드 서브-스트림의 존재에 관련된 구체적인 정보를 삽입하는 예를 보여준다. 우리는 무엇보다도, MPEG-21의 SVM의 프레임워크에서 제안된 데이터 스트림의 구조를 연상할 수 있다.

SVM의 실행에 있어서, 스트림은 NALs("Network adaptation layers")로 불리는 정보 엔티티로 구조화된다. NAL은 H264 표준(ITU-T and ISO/IEC JTC1, "Advanced Video Coding for Generic Audiovisual Services," ITU-T Recommendation H.264-ISO/IEC 14496-10 AVC, 2003)에 따른 전송 유닛이다. 이것은 레드 그리고 정수 개의 데이터 바이트("페이로드"라 불린다.)들을 포함하는 패킷이다.

NAL의 헤드는 NAL 타입의 자격으로 사용될 수 있기 위한 타입 바이트를 포함한다. 페이로드 데이터 필드는 서브 밴드 이미지 또는 이미지의 일부분에 대한 공간 레벨, 시간 레벨 그리고 쿼러티 레벨(base level or FGS 레벨)의 인코딩에 대응 하는 스트림을 전달하기 위해 사용된다. SVM 구조(syntax)에 있어서, NAL은 몇 가지 형태일 수 있다. 구체적으로, 타입(20)과 타입(21)은 그것의 서브-스트림이 이미지(inrta of non-intra)의 상승 서브-스트림인 NAL을 설명하기 위해 저장된다.

도 9(sub-layer EL 2)와 관련하여 상기 설명한 바와 같이, 데드 서브-스트림을 추가된 상승 서브-스트림의 삽입에 대응하는 스트림에 삽입, 이 데드 서브-스트림은 NAL로 전송된다. 그것의 사용이 SVM의 구조에 의해 아직 지시되지 않은 모든 형태의 NAL은, 타입 22 또는 23과 같은, 데드 서브-스트림을 전달하는 NAL을 지정하기 위해 사용될 수 있다.

본원발명의 다른 선택적 실시예에 있어서, 동일한 NAL에서 레벨 n 레이어의 데드 서브-스트림의 전송을 관찰하는 것은 가능하다. 또한 그것이 존재한다면, 상승 서브-스트림도 가능하다. 다시 말하면, 서브-레이어 EL 1 및 EL 2는 동일한 NAL 에서 함께 그룹화되고, 추가적인 정보는 서브-스트림 EL 1 그리고 EL 2 사이에 NAL에서 브레이크 포인트가 위치하는 장소를 지시한다.

도 10과 도 11과 관련하여, 하기의 설명은, 한편으로 추출기라 불리는, 이미지 쿼러티 적응 모듈의 작동 원리를 중심으로 설명한다. 이와 같은 추출기는 인코더의 출력에 직접, 디코더의 바로 앞에, 또는 고객이 인코드된 데이터 스트림에 접근하는 전송 네트워크의 어떤 지점에 위치할 수 있는 것을 쉽게 연상할 수 있다. 그것은 서비스를 하는 최종 고객들을 위해 필요하지 않은 어떤 데이터를 모든 스트림으로부터 추출할 수 있다. 더욱 구체적으로, SVM의 추출기는 각 NAL(공간 그리고 시간 레벨들, FGS)의 특징들을 탐색하고, 주어진 비트율에서 그리고 주어진 포맷( 또는 공간-시간 해상도의 레벨)으로 디코딩되기 위해 사용되는 NALs를 유지하거나, 또는 종결한다.

본원발명에 따라, 데드 서브-스트림의 삽입은 추출기에 의해 NALs의 헤드들의 리딩을 다음과 같이 수정한다.

nivSpatialDec는 디코딩에서 요구되는 공간 해상도의 레벨,

nivSpatialNAL은 현재 NAL의 공간 해상도의 레벨,

typeNAL은 현재 NAL의 타입으로 놓는다.

IF((typeNAL == 22 ∥ typeNAL == 23) and nivSpatialDec == nivSpatialNAL)

{Extraction of the NAL}

다시 말하면, 추출기의 작동은 모든 데이터 스트림으로부터 그것이 디코딩에 있어서 획득되는 공간 해상도 레벨의 데드 서브-스트림을 전달하는 NALs을 또한 추출하기 위해 수정된다. 도 10 및 도 11은 공간 해상도의 단지 두 개의 연속된 레벨이 고려될 때, CIF 및 QCIF 포맷으로 비디오 시퀀스의 각각의 추출에 대한 두 가지 추출에 대한 실시 예를 나타낸다.

CIF 포맷에서 이미지의 재생에 대해, 디코더는 두 개의 공간 레벨들(BL QCIF 그리고 BL CIF), 두 개의 공간 레벨들의 첫 번째 상승 레이어들(Enhancement Layer EL 1 QCIF and Enhancement Layer EL 1 CIF) 뿐만 아니라 CIF 레벨의 두 번째 상승 레이어(Enhancement Layer EL 2 CIF)의 기본 서브-스트림들을 사용한다. 그러므로, 모든 스트림으로부터, 추출기는 그것들을 수정된 스트림에 삽입하기 위해,도 10에서 나타난 이러한 순서로 서브-레이어들의 세트를 추출해야 한다. 포인트 재생을 위해 사용하는 비트율에 따라, 다른 서브-레이어들이 디코드될 수 있다. 즉, 대응하는 서브-스트림은 단지 부분적으로 종결될 수 있다.(예를 들어, 상승 서브-스트림, EL 1 CIF 그리고 이 경우에 데드 서브-스트림 EL 2 CIF의 부분적인 디코딩은 비트율이 그것을 인정하지 않음에 따라, 사용되지 않는다.)

QCIF 포맷으로 재생을 위해, 디코더는 도 11에서 나타난 바와 같이, QCIF 레벨의 기본 서브-스트림 그리고 QCIF 레벨의 두 개의 상승 서브-스트림들(Enhancement Layer EL 1 QCIF and Enhancement Layer EL 2 QCIF)을 사용한다. 또한, 다른 레이어들 BL QCIF, EL 1 QCIF 그리고 EL 2 QCIF는 QCIF 포맷으로 이미지 재생에 할당된 비트율에 따라 종료될 수 있다.

도 18은 메모리 M(180)과 ,예를 들어, 하나의 마이크로프로세서를 구비하고 컴퓨터 프로그램 Pg(182)에 의해 구동되는 프로세싱 유닛(181)을 포함하는 추출기 또는 이미지 쿼러티 추출 모듈의 간단한 구조를 나타낸다. 처음에, 예를 들어, 컴퓨터 프로그램(182) 코드 명령은 프로세싱 유닛(181)의 프로세서에 의해 실행되기 전에 RAM 내부에 로딩된다. 프로세싱 유닛(181)은 입력으로 연속적인 해상도 레벨 n의 계층적인 구조에 따라 압축 데이터 스트림(83)을 수신한다. 데이터 스트림(83)으로부터 마이크로 프로세서 mP는 프로그램 Pg(182)의 명령에 따라 디코딩에서 사용되지 않는 모든 스트림을 추출한다(예를 들어, 목포 터미널 또는 재생에서 기대되는 쿼러티의 특성에 따라). 프로세싱 유닛(181)은 고객 터미널의 프로세싱 용량과 전송 네트워크의 제약에 적응된 데이터 스트림(183)을 출력한다.

데드 서브-스트림이 타입(22)와 타입(23) NAL에 의해 운반되는 본원발명의 선택적 실시예에 있어서, MPEG-21 SVM 모델의 환경에서 제안된 디코더는 타입(22), 타입(23) 모듈을 디코드하기 위해 수정되어야 한다.

IF(typeNAL == 20 ∥ typeNAL == 21 ∥ typeNAL == 22 ∥ typeNAL == 23){Decode NAL}

이하, 도 12 내지 도16과 관련하여, 데드 서브-스트림의 삽입에 추가하여, 공간 레이어들에서 쿼러티의 적응 선택을 수행하는 본원발명의 실시예에 관한 설명이 주어진다. 연속적인 레벨 n의 데이터 레이어들에서 쿼러티의 적응된 선택은 디코딩에서 획득되기 이한 각 비트율 포인트에 대하여, 최적의 추출 패스를 정의할 수 있게 한다. 즉, 이 패스는 비트율/왜곡 센서에서 가장 좋은 포인트의 재생을 제공한다. 본원발명의 이러한 다양함은 모든 스트림에 정보 셀의 정의 및 삽입에 의존한다.

더욱이, 채택된 추출 패스의 사용은 다음과 같이 본원발명의 추출 기술을 개선한다.

- 각 공간-시간 해상도 레벨 N의 몇 가지 비트율 포인트들에 대하여, 계산은 최소 QNmin과 최대 QNmax 사이에 포함된 그것들의 쿼러티를 나타내는 값으로 이루어진다. 이 계산은

- 각 공간 해상도 레이어의 인코딩 시점에, 혹은

- 다른 공간 레벨들의 모든 레이어들의 인코딩 후에

이루어질 수 있다.

- 모든 스트림 내에서 정보는 디코딩 작동에 선행하는 추출에서 재생되기 위한 쿼러티의 측정을 할 수 있도록 삽입된다.

- 인코드된 스트림의 데이터 엔티티(즉, 기본 서브-스트림 혹은 상승 서브-스트림을 운반하는 NAL에 있어)에 정보를 삽입하는 것에 의해,

- eHSMS 인코드된 스트림의 데이터 엔티티로부터 분리된 엔티티에 정보를 삽입하는 것에 의해.

- 공간 레벨 n의 쿼러티 Q에 대응하는 비트율 포인트 R의 추출 시점에, 이 쿼러티에 대응하는 데이터 엔티티는 n보다 낮은 레벨의 데드 서브-스트림이 사용되지 않는 것을 관찰하는데, n 이하 또는 n과 동일한 모든 공간 레벨에 대하여 추출된다.

그러므로, 이러한 변형에 따라, 독립적인 서브-스트림이 각 이미지에 대하여 만들어진다. 이러한 서브-스트림들 각각은 각 이미지에 대하여 주어진 쿼러티 및/또는 비트율이 획득될 수 있는 종결 포인트를 결정하기 위해 스캔된다. 그러므로, 최종적인 스트림은 쿼러티 "레벨들"의 어떤 양을 구성한다.

도 12는 최적의 추출 패스의 실행에 기반한 본원발명의 다양한 변형에 의해 유도되는 프리딕션/추출의 변형을 나타낸다. 또한, 공간-시간 해상도 QCIF 및 CIF의 두 개의 연속적인 레벨들의 특별한 환경에서 그 설명이 이루어진다. 상기 설명은 kbits/s로 표현되는 비트율을 나타내는 x축과 dB로 표현되는 PSNR을 나타내는 y축으로, 두 개의 레벨와 관련된 비트율/왜곡 곡선을 고려한다.

레벨 N-1(QCIF) 곡선(30)에 이용될 수 있는 네 개의 포인트 P1, P2, P3 그리고 P4에 대하여 고려한다. 이러한 P1, P2, P3 그리고 P4 네 개의 점들은 레벨 N 곡선(CIF)에 대해 가능한 프리딕션인 것으로 고려된다.

그러므로, 포인트 P1은 곡선 C1을 얻기위한 프리딕션으로 사용될 수 있다. 반면에, 곡선 C2, C3는 포인트 P2 및 P3에 의한 프리딕션으로부터 각각 얻어진다. 곡선(31)은 QCIF 레벨의 최대 비트율 포인트 P4로부터 프리딕션에 의해 얻어지는 곡선에 대응한다. 그리고, 선행 기술 MPEG-21 SVC 인코더에 의해 얻어지는 CIF 레벨 곡선을 나타낸다.

다른 곡선 C1 내지 C3로부터 각각의 목표 비트율에 대응하는 QCIF 곡선(30)(비트율/왜곡 센서에 있어서)의 가장 최선의 프리딕션 포인트를 선택하는 것은 가능하다. 그러므로, 128 kibps/s의 비트율에 있어서 최소 왜곡은 곡선 C1에서 얻어지고, 그래서 128kbits/s 비트율 포인트는 프리딕션 포인트 P1으로부터 최선으로 프리딕트된다. 유사하게, 192kbits/s 비트율 포인트에 대한 최소 왜곡은 곡선 C3에서 얻어진다. 그래서 이러한 비트율 포인트는 프리딕션 포인트 P3로부터 최선으로 프리딕트된다. 이러한 방법으로, 레벨 N(CIF) 곡선의 포인트에 의해 그리고 그것의 최선의 레벨 N-1(QCIF) 곡선의 최선의 프리딕터에 의해 알고리즘(이것은 인코더에서 사용되는 것과는 다르다)에 따라 형성된 쿼러티 곡선을 얻는다.

최적의 프로세싱 패스들은 인코더의 레벨에서 추가적인 프로세싱 단계에 의해 결정된다. 상기에서 설명한 바와 같이, 이러한 단계는 인코딩 동안에 실행될 수 있고, 또는 데이터 인코딩/압축 작용 후에 수행되기 때문에 인코더에 독립적일 수 있다.

이하, 도 13과 관련하여, 인코더에서 또는 포스트-프로세서에서 실행되는 비 트율 포인트와 관련하여 쿼러티의 계산에 관한 예를 구체적으로 설명한다.

우리는 NAL에서 분배된 여러 레벨의 쿼러티(즉, 기본 레벨 그리고 하나 이상의 상승 혹은 개선 레벨들)로 나누어진 이미지 셋트(레즈듀 혹은 아닐 수 있는)를 이용할 수 있다. NALs N_i 는 왜곡 D_i ⁿ 에 대하여 비트율 R_I ^N 을 생성하는 서브-포인트 n_i 에서 트렁케이트(truncate)될 수 있다.

고려되는 공간-시간 해상도 레벨에 대해 얻어질 수 있는 최대 비트율의 제한을 가진 왜곡을 최소화하기 위해, 이미지의 NAL을 i 포인트 n_i ^λ로 다시 나누는 최적의 방법에 대한 서치가 이루어진다. 그러므로, 이미지에 있어 하기 퀀터티를 최소화하는 것이 구해진다.

실직적으로, 어떤 수의 가능한 절단 포인트들(truncation points)이 각 NAL(DpFMF 들어 k 포인트들, 그러나 엔트로픽 인코더의 각 런(run)의 끝에서 속속들이지 않은)에서 정의된다.

도 13의 설명된 바와 같이, 여기서 x축은 비트율을 나타낸고, y축은 왜곡을 나타내는 것으로, 정보 엔티티 NALsdml 셋트로부터 모든 이미지에 대하여 획득된 군집 포인트들(130)에 대하여 고려한다. 처음, 고려되는 공간-시간 해상도 레벨의 비트율-왜곡 곡선에 속하는 이 군집 포인트들(130)은 David Tauman에 의한 문서 "High Performance Scalable Image Compression with EBCOT"에서 구체적으로 설명된 기술에 따라 결정된다. 상기 문서에서는 더욱 구체적인 것에 대해 찾을 수 있다. 그러므로, 주어진 공간-시간의 이러한 포인트들이 포함되는 볼록한 포락선(convex envelope)(131)에 대한 서치가 이루어진다.

주어진 λ의 값 즉 주어진 쿼러티에 대하여, 다음과 같은 알고리즘이 있다.

곡선의 각 확인된 포인트에 대해, 이 점 S_i ^j=ΔR_i ^j/ΔD_i ^j 에서 비트율 값 ΔR_i ^j 및 슬로프의 값이 저장된다.

이러한 다른 쿼러티 레벨이 디코딩 동안에 이용되도록 하기 위해, 즉, 얻어진 쿼러티 레벨에 관련된 특별한 포인트에서 NAL이 트렁케이션(truncation)되도록 하기 위해, 데트 서브-스트림을 증명하는 정보에 추가하여, 이러한 쿼러티 레벨이 확인할 수 있도록 모든 데이터 스트림에 두 번째 구체적인 정보를 기록하는 것이 필요하다.

이러한 목적으로, 본원발명에 의한 두 가지 구체적인 실시 예가 제안된다. 트렁케이션 포인트들을 정할 때 선택되는 포인트들과 관련되는 페어들(비트율, 쿼러티)이 데이터 NALs에 직접 저장되는 하나, 이러한 페어들이 정보 NALs라 불리는 구체적인 NALs에 기록되는 두번째. 하나의 포인트와 관련된 쿼러티 Q_i는 상기 에서 정의된 바와 같이 슬로프 S_i ^j 의 기능으로 계산되어 진다.

도 14에 의해 설명된 첫번째 구체적인 실시예에 있어서, pseudo-header(143)는 헤더(141)과 데이터 NAL(140)의 페이로드 데이터 필드(142) 사이에 삽입된다. 여기서, 이 pseudo-header(143)는 도 13의 트렁케이션 포인트들에 대한 탐색 동안에 확인된 다른 쿼러티 레벨들 상의 포인트들(예를 들어 오프셋 값의 형태로)을 포함한다. 포인터(offset)는 비트율 값과 동일하고 쿼러티 Q₁ ,Q₂ ,Q₃의 값에 대응하고, 도 14에서 페이로드 데이터 필드에 지적하는 화살표에 의해 표현된다.

도 15에서 설명된 두 번째 실시 예는, 정보 NALs(150)으로 알려지고, 모든 스트림의 데이터 NAL(151) 안에서 쿼러티 레벨들의 확인을 할 수 있는 새로운 형태의 NAL을 사용한다. 데이터 NAL(151)과 같이, 이러한 종류의 정보 NAL(150)는 헤더(152)와 페이로드 데이터 필드(153)를 포함한다. 예를 들어, 10개의 다른 쿼러티 레벨 Q₁ 내지 Q₂ 를 제안하는 것이 기대되는 경우에, 정보 NAL은 그것의 페이로드(153) 안에 10 개의 정수를 포함하도록 구성되고, 각 정수는 데이터 NAL(151)의 페이로드 데이터 필드(154)에서 오프셋을 나타낸다.

쿼러티 레벨 Q_ext 에서 비디오 시퀀스를 재생하고자 할 때, 필요한 데이터는 모든 압축 스트림으로부터 추출된다. 이를 위해, 추출기(또는 이미지 쿼러티 적응 모듈)는 레벨 Q_ext (Q_ext 의 그것보다 더 낮거나 혹은 동일한 쿼러티)에 가장 가까운 쿼러티 레벨에 대해 각 NAL에서 서치를 한다.

도 16 은 연속 쿼러티 레벨에서 이미지의 구조의 예를 나타낸다. 도면 부호 161 내지 167과 관련한 7개의 이미지가 고려된다. 첫 번째 세 개의 이미지(161, 162, 163)는 QCIF 해상도 포맷에 관한 것이고, 반면에 나머지 네 개의 이미지(164, 165, 166, 167)는 CIF 해상도 포맷에 관한 것이다. 이러한 이미지들 각각은 기본 서브-스트림 BL(168), 첫번째 상승 서브-스트림 EL 1(169) 그리고 데드 서브-스트림에 대응하는 두번째 상승 서브-스트림 EL 2(170)의 형태로 인코드된다. 도면부호 171 내지 175와 관련된 5개의 연속적인 쿼러티 레벨들은 이러한 이미지들 각각에 대하여 구별될 수 있다. 이러한 쿼러티 레벨들은 정보 에티티의 트렁케이션의 포인트들 또는 이미지 재생 데이터를 운반하는 NALs에 대응한다.

도 16에서 나타나는 바와 같이, 가장 낮은 쿼러티 레벨(171)은 기본 서브-스트림 BL(168)에 대응한다. 첫번째 상승 서브-스트림 EL 1의 디코딩은 중간 쿼러티 레벨(173)을 얻는 것을 가능하게 하고, 데드 서브-스트림 EL 2(170)은 FCHLEO 쿼러티 레벨(175)을 얻는 것을 가능하게 한다.

그러므로, CIF디코딩에 대해, 추출기에 의해 요구되는 쿼러티가 Q_ext=3 이면, 세 개의 더 낮은 쿼러티 레벨(171, 172, 173)은 각 이미지에 대하여 전적으로 사용될 것이다. 반대로, 만일 추출기에 의해 요구되는 쿼러티가 Q_ext=4 이면, 세 개의 더 낮은 쿼러티 레벨(171, 172, 173)은 CIF에 대한 쿼러티 레벨(174)와 또한 같이 각 CIF와 QCIF에 대하여 전체적으로 디코드될 것이다.

쿼러티 레벨에 기반한 이러한 선택적 실시예에 있어서, 추출기 또는 이미지 쿼러티 적응 모듈은 재생에 있어서 기대되는 쿼러티 레벨에 관한 최적의 포인트에서 정보 엔티티의 트렁케이션을 실행한다(이 트렁케이션(truncation)은 이미지 또는 서브-밴드에 의해 적응된다.). 그러므로, 디코더는 베스트 포인트에서 미리 트렁케이트된 NALs를 수신하고 결국 그것은 비디오 시퀀스를 재생하기 위해 디코드한다.

도 19는 메모리 M(190)과 마이크로 프로세서를 구비한 그리고 컴퓨터 프로그램 Pg(192)에 의해 구동되는 프로세싱 유닛(191)을 포함하는 디코더의 간단한 구조를 나타낸다. 처음으로, 컴퓨터 프로그램(192) 코드 명령은, 예를 들어, 프로세싱 유닛(191)의 프로세서에 의해 실행되기 전에 RAM에 로딩된다. 입력에 있어서, 프로세싱 유닛(191)은 데이터 패킷의 셋트를 수신하고, 또는 예를 들어, 얻고자 하는 재생 쿼러티의 기능으로 최적의 비트율 포인트에서 트렁케이트되는 NALs과 관은 디코드되기 위한 정보 엔티티를 수신한다. 프로세싱 유닛(191)의 마이크로 프로세서 mP는 수신된 정보 엔티티(183)를 프로그램 Pg(192)의 명령에 따라 디코드한다. 프로세싱 유닛(191)은 고객의 디스플레이 터미널의 프로세싱 용량에 적응된 재생 비디오 시퀀스(193)를 출력한다.

Claims

n은 정수이고, 각각의 레벨들 n은 이미지들의 미리 결정된 해상도에 대응하는 연속적인 레벨 n의 임베디드된 데이터 레이어들의 계층구조를 가지는 데이터 스트림을 생성하는 단계를 포함하는 이미지 또는 이미지 시퀀스의 인코딩 방법에 있어서,

상기 방법은, 적어도 상기 레벨 n 레이어의 프리딕션에 의해, 레벨 n+1의 상기 레이어들 중 적어도 하나의 인코딩을 위한 단계를 포함하고,

상기 데이터 레이어들의 각각은 미리 결정된 최대 쿼러티의 상기 해상도 레벨 n에서 상기 이미지들의 버젼을 재생 할 수 있고,

상기 미리 결정된 최대 쿼러티의 상기 해상도 레벨 n 보다 더 높은 쿼러티의 상기 해상도 레벨 n에서 상기 이미지의 버전의 재생을 할 수 있는 데드(dead) 서브-스트림이라 불리는 상기 레벨 n 데이터 레이어들 중 적어도 하나인 적어도 하나의 서브 스트림에 대하여 또한 인코딩을 할 수 있고,

또한, 상기 레벨 n의 상기 레이어의 상기 데드 서브-스트림은 n과 다른 레벨의 상기 레이어들의 프리딕션에 의한 인코딩 단계 동안에 사용되지 않는 것을 특징으로 하는 이미지 또는 이미지 시퀀스의 인코딩 방법.
제 1 항에 있어서,

상기 레벨 n 데이터 레이어들은 상기 해상도 레벨 n을 가진 이미지들의 기본 쿼러티 버젼의 재생을 할 수 있는 적어도 하나의 기본 서브-스트림의 형태로, 상기 레벨 n 데이터 레이어들 중 적어도 하나에 대하여, 상기 이미지들의 적어도 하나의 상승된 쿼러티 버젼을 획득하기 위해, 상기 기본 쿼러티 버젼이 리파인(refine)될 수 있는 적어도 하나의 상승 서브-스트림의 형태로 인코드되고, 상기 미리 결정된 최대 쿼러티는

- 만일 상기 상승 서브-스트림이 인코드되지 않으면 상기 기본 쿼러티;

- 만일 적어도 하나의 상승 서브-스트림이 인코드되면, 적어도 하나의 상승된 쿼러티인 것을 특징으로 하는 이미지 또는 이미지 시퀀스의 인코딩 방법.
제 1항 또는 제 2 항에 있어서,

상기 데이터 스트림안에서 상기 적어도 하나의 데드 서브-스트림을 확인하기 위해 사용되는 적어도 하나 이상의 정보를 상기 데이터 스트림에 삽입하는 1 단계를 포함하는 것을 특징으로 하는 이미지 또는 이미지 시퀀스의 인코딩 방법.
제 1 항 또는 제 3 항 중 어느 하나의 항에 있어서,

상기 이미지들 중에서 적어도 어떤 것에 대하여, 상기 레이어들 중 적어도 하나의 적어도 어떤 데이터와 관련되는 재생 쿼러티에 관한 적어도 하나의 정보를 상기 데이터 스트림에 삽입하는 2 단계를 더 포함하고, 상기 재생 쿼러티는 적어도 하나의 비트율/왜곡 파라미터의 기능인 것을 특징으로 하는 이미지 또는 이미지 시퀀스의 인코딩 방법.
n은 정수이고, 각각의 레벨들 n은 이미지들의 미리 결정된 해상도에 대응하는 연속적인 레벨 n의 임베디드된 데이터 레이어들의 계층구조를 가지는 데이터 스트림을 생성하는 수단들을 포함하는 이미지 또는 이미지 시퀀스의 인코딩 장치에 있어서,

상기 장치는, 적어도 상기 레벨 n 레이어의 프리딕션에 의해, 레벨 n+1의 상기 레이어들 중 적어도 하나의 인코딩 수단을 포함하고,

상기 데이터 레이어들의 각각은 미리 결정된 최대 쿼러티의 상기 해상도 레벨 n에서 상기 이미지들의 버젼의 재생을 할 수 있고,

상기 미리 결정된 최대 쿼러티의 상기 해상도 레벨 n 보다 더 높은 쿼러티의 상기 해상도 레벨 n에서 상기 이미지의 버전의 재생을 할 수 있는 데드(dead) 서브-스트림이라 불리는 상기 레벨 n 데이터 레이어들 중 적어도 하나인 적어도 하나의 서브 스트림에 대하여 또한 인코딩을 하는 수단을 포함하고,

여기서, 상기 레벨 n의 상기 레이어의 상기 데드 서브-스트림은 n과 다른 레벨의 상기 레이어들의 프리딕션에 의한 인코딩 수단들에 사용되지 않는 것을 특징으로 하는 이미지 또는 이미지 시퀀스의 인코딩 장치.
제 5 항에 있어서,

상기 레벨 n+1 레이어의 프리딕션에 의해 인코딩되는 동안 고려되는 상기 데이터를 상기 레벨 n 레이어로부터 추출할 수 있는 프리딕션 포인트 추출 모듈을 포함하는 것을 특징으로 하는 이미지 또는 이미지 시퀀스의 인코딩 장치.
이미지 또는 이미지 시퀀스를 나타내는 데이터 스트림의 디코딩 방법에 있어서,

n은 정수이고, 각각의 레벨들 n은 상기 이미지들의 미리 결정된 해상도에 대응하는 연속적인 레벨 n의 임베디드된 데이터 레이어들의 계층구조를 가지는 상기 데이터 스트림,

레벨 n 상기 스트림의 각각의 상기 데이터 레이어들은 미리 결정된 최대 쿼러티의 상기 해상도 레벨 n에서 상기 이미지의 버젼의 재생을 할 수 있고,

레벨 n+1 중 상기 레이어들 중에서 적어도 하나는 상기 레벨 n 레이어로부터 적어도 프리딕션에 의해 인코드되어지고,

상기 데이터 스트림은, 상기 레벨 n 데이터 레이어들 중에서 적어도 하나에 대해, 상기 미리 결정된 최대 쿼러티 보다 더 높은 퀄러티의 상기 해상도 레벨 n에서 상기 이미지들의 버젼의 재생을 할 수 있는, 데드 서브-스트림으로 불리는, 적 어도 하나의 서브 스트림을 포함하고,

상기 해상도 레벨 n을 가진 상기 이미지들의 재생을 위해, 상기 방법은

- n 보다 낮은 레벨의 상기 데이터 레이어들의 디코딩하는 단계;

- 인증된 디코딩 비트율에 의존하여, 상기 레벨 n 레이어 그리고 경우에 따라서, 상기 레벨 n 레이어의 상기 데드 서브-스트림의 적어도 부분 디코딩하는 단계를 수행하고,

n 보다 낮은 레벨의 상기 레이어들의 상기 데드 서브-스트림들은 상기 재생동안 디코딩되지 않는 것을 특징으로 하는 이미지 또는 이미지 시퀀스를 나타내는 데이터 스트림의 디코딩 방법.
이미지 또는 이미지 시퀀스를 나타내는 데이터 스트림의 디코딩 장치에 있어서,

n은 정수이고, 각각의 레벨들 n은 상기 이미지들의 미리 결정된 해상도에 대응하는 연속적인 레벨 n의 임베디드된 데이터 레이어들의 계층구조를 가지는 상기 데이터 스트림,

레벨 n 상기 스트림의 각각의 상기 데이터 레이어들은 미리 결정된 최대 쿼러티의 상기 해상도 레벨 n에서 상기 이미지의 버젼의 재생을 할 수 있고,

레벨 n+1 중 상기 레이어들 중에서 적어도 하나는 상기 레벨 n 레이어로부터 적어도 프리딕션에 의해 인코드되어지고,

상기 데이터 스트림은, 상기 레벨 n 데이터 레이어들 중에서 적어도 하나에 대해, 상기 미리 결정된 최대 쿼러티 보다 더 높은 쿼러티의 상기 해상도 레벨 n에서 상기 이미지들의 버젼의 재생을 할 수 있는, 데드 서브-스트림으로 불리는, 적어도 하나의 서브 스트림을 포함하고,

상기 해상도 레벨 n을 가진 상기 이미지들의 재생을 위해, 상기 장치는

- n 보다 낮은 레벨의 상기 데이터 레이어들의 디코딩하는 수단;

- 인증된 디코딩 비트율에 의존하여, 상기 레벨 n 레이어 그리고 경우에 따라서, 상기 레벨 n 레이어의 상기 데드 서브-스트림의 적어도 부분 디코딩하는 수단을 포함하고,

n 보다 낮은 레벨의 상기 레이어들의 상기 데드 서브-스트림들은 상기 재생동안 디코딩되지 않는 것을 특징으로 하는 이미지 또는 이미지 시퀀스를 나타내는 데이터 스트림의 디코딩 장치.
이미지 또는 이미지 시퀀스를 나타내는 데이터 스트림의 전송을 위한 신호에 있어서,

n은 정수이고, 각각의 레벨들 n은 이미지들의 미리 결정된 해상도에 대응하는 연속적인 레벨 n의 임베디드된 데이터 레이어들의 계층구조를 가지는 상기 데이터 스트림,

적어도 상기 레벨 n 레이어의 프리딕션에 의해 인코드된, 레벨 n+1의 상기 레이어들 중 적어도 하나,

상기 스트림의 레벨 n의 상기 데이터 레이어들 각각은 미리 결정된 최대 쿼러티의 상기 해상도 레벨 n에서 상기 이미지들의 버젼의 재생을 할 수 있고,

상기 신호는 상기 데이터 스트림이 전달되는 정보 엔티티의 형태로 구조화되고,

상기 각각의 정보 엔티티는 상기 정보 엔티티의 형태로 정보를 제공하는 헤드 그리고 페이로드 데이터 필드를 포함하고,

상기 미리 결정된 최대 쿼러티의 상기 해상도 레벨 n 보다 더 높은 쿼러티의 상기 해상도 레벨 n에서 상기 이미지의 버전의 재생을 할 수 있는 데드(dead) 서브-스트림이라 불리는 상기 레벨 n 데이터 레이어들 중 적어도 하나에 대하여 상기 신호가 전송되는 것을 특징으로 하고,

상기 레벨 n의 데드 서브-스트림은 n과 다른 레벨의 해상도를 가진 상기 이미지들의 재생에 대하여 사용되지 않는 것을 특징으로 하는 이미지 또는 이미지 시퀀스를 나타내는 데이터 스트림의 전송을 위한 신호.
제 9 항에 있어서,

상기 신호는 상기 스트림의 적어도 하나의 데이터와 관련된 재생 쿼러티에 관한 적어도 하나의 정보를 포함하는 구체적인 형태의 적어도 하나의 정보 엔티티를 포함하고, 상기 재상 쿼러티는 적어도 하나의 비트율/왜곡 파라미터에 의존하는 것을 특징으로 이미지 또는 이미지 시퀀스를 나타내는 데이터 스트림의 전송을 위한 신호.
제 1 항 내지 제 4 항 중 어느 하나에 따라 이미지 또는 이미지 시퀀스의 인코딩 방법의 단계들을 마이크로 프로세서 내에서 혹은 마이크로 프로세서에 의해 실행하기 위한 프로그램 코드 명령을 포함하는 컴퓨터 프로그램.
제 7 항에 의한 이미지 또는 이미지 시퀀스를 나타내는 데이터 스트림의 디코딩 방법의 단계들을 마이크로 프로세서 내에서 혹은 마이크로 프로세서에 의해 실행하기 위한 프로그램 코드 명령을 포함하는 컴퓨터 프로그램.
이미지 혹은 이미지 시퀀스의 쿼러티를 적응하기 위한 모듈에 있어서,

상기 적응 모듈은 이미지 혹은 이미지 시퀀스를 나타내는 소스 데이터 스트림에 의해 공급(feed)되고,

데이터 스트림은 n은 정수이고, 각각의 레벨들 n은 이미지들의 미리 결정된 해상도에 대응하는 연속적인 레벨 n의 임베디드된 데이터 레이어들의 계층구조를 가지고,

상기 스트림의 레벨 n의 상기 각각의 데이터 레이어들은 미리 결정된 최대 쿼러티의 상기 해상도 레벨 n에서 상기 이미지들의 버젼의 재생을 할 수 있고,

레벨 n+1의 상기 레벨들 중 적어도 하나는 적어도 상기 레벨 n 레이어로부터 프리딕션에 의해 인코드되고,

상기 미리 결정된 최대 쿼러티의 상기 해상도 레벨 n 보다 더 높은 쿼러티의 상기 해상도 레벨 n에서 상기 이미지의 버전의 재생을 할 수 있는 데드(dead) 서브-스트림이라 불리는 상기 레벨 n 데이터 레이어들 중 적어도 하나인 적어도 하나의 서브 스트림을 포함하는 상기 소스 데이터,

상기 이미지의 디스플레이를 위해 적어도 하나의 터미널에 대해 예정된 수정된 데이터 스트림의 생성을 위한 수단들을 실행하는 상기 적응 모듈,

상기 수정된 데이터 스트림은 추출에 의해 상기 소스 데이터 스트림으로 부터 획득되고, 만일 상기 적어도 하나의 디스플레이 터미널이 상기 해상도 레벨 n을 가진 상기 이미지를 재생하지 못하면 상기 레벨 n 데드 서브-스트림으로부터 획득되는 것을 특징으로 하는 이미지 혹은 이미지 시퀀스의 쿼러티를 적응하기 위한 모듈.
이미지 혹은 이미지 시퀀스를 나타내는 적어도 하나의 데이터 스트림을 포함하는 데이터 케리어에 있어서,

n은 정수이고, 각각의 레벨들 n은 이미지들의 미리 결정된 해상도에 대응하 는 연속적인 레벨 n의 임베디드된 데이터 레이어들의 계층구조를 가지는 상기 케리어,

레벨 n+1의 상기 레벨들 중 적어도 하나는 적어도 상기 레벨 n 레이어로부터 프리딕션에 의해 인코드되고,

상기 스트림의 레벨 n의 상기 각각의 데이터는 미리 결정된 최대 쿼러티의 정기 해상도 레벨 n에서 상기 이미지의 버전의 재생을 할 수 있고,

상기 미리 결정된 최대 쿼러티의 상기 해상도 레벨 n 보다 더 높은 쿼러티의 상기 해상도 레벨 n에서 상기 이미지의 버전의 재생을 할 수 있는 데드(dead) 서브-스트림이라 불리는 상기 레벨 n 데이터 레이어들 중 적어도 하나에 대하여 적어도 하나의 서브-스트림의 저장을 위한 적어도 하나의 존(zone)을 포함하는 상기 데이터 케리어,

레벨 n의 상기 데드 서브-스트림의 상기 저장 존(zone)은 n과 다른 레벨의 해상도를 가진 상기 이미지의 재생 동안에 리드(read)되지 않는 것을 특징으로 하는 이미지 혹은 이미지 시퀀스를 나타내는 적어도 하나의 데이터 스트림을 포함하는 데이터 케리어.